大數據分析的關鍵知識

更新 發佈閱讀 2 分鐘


大數據分析的關鍵知識:



一、描述性統計:數據的起點

描述性統計是大數據分析的第一步,用來總結數據的樣貌。

它包含三個重點:集中趨勢、離散程度和分佈形狀。


  1. 集中趨勢:幫你找到數據的「中心」。
    • 均值:所有數據加起來除以總數,像計算班上平均分數。
    • 小心極端值會拉高或拉低結果。
    • 中位數:數據排序後的中間值,適合分析收入這種有高低差距的數據。
    • 眾數:出現最多的值,像是找出最受歡迎的產品款式。
  2. 離散程度:看數據分散的程度。
    • 範圍:最大值減最小值,簡單但容易被異常值影響。
    • 標準差:數據離均值有多遠,標準差越大,數據越分散。
  3. 分佈形狀:了解數據的「長相」。
    • 偏態:數據分佈是否對稱。
    • 正偏態右邊尾巴長(如收入分佈),負偏態左邊尾巴長(如考試成績)。
    • 箱形圖:展示數據的五個關鍵點(最小值、四分之一位、中位數、四分之三位、最大值),能快速看出異常值。

學習小訣竅:記住「MMM」(Mean、Median、Mode)代表集中趨勢。

想像偏態是數據分佈的「尾巴」,右長是正偏態,左長是負偏態。


二、推論性統計:從小數據猜大數據

推論性統計讓你從樣本推測整體數據的特性,因大數據時代不可能分析所有數據。這部分對AI模型評估特別重要。

  • 樣本與總體:樣本是總體的一部分,比如從全校學生抽100人來推測平均身高。
  • 假說檢定:像法庭審判,先假設「沒差異」(虛無假說H0),再用數據證明是否有差異(對立假說H1)。例如,測試新AI模型是否比舊模型準確。
  • 大數據挑戰:數據來源可能不一致(像不同城市的數據混雜),導致推論不準,必須小心處理。

學習小訣竅:把假說檢定想成「挑戰預設」,H0是「一切正常」,H1是「有新發現」。


三、大數據技術:Hadoop與Spark的對決

大數據需要強大的工具來處理。

  1. Hadoop
    • 像一輛穩重的貨車,適合處理超大數據。
    • 核心:HDFS存數據,MapReduce做批處理,YARN管資源。
    • 優點:穩定,適合日誌分析。
    • 缺點:速度慢,依賴硬盤。
  2. Spark
    • 像一輛高速跑車,用內存計算,速度比Hadoop快10-100倍。
    • 核心:支援實時處理、SQL查詢和機器學習。
    • 優點:快速靈活,適合實時分析。
    • 缺點:需要更多內存。
  3. 視覺化工具
    • Power BI:像進階版Excel,容易上手,適合做商業報表。
    • Tableau:像藝術家的畫布,視覺效果強大,適合探索複雜數據。

學習小訣竅

記住

Hadoop是「慢但穩」,

Spark是「快而靈」。






留言
avatar-img
ten was的沙龍
3會員
41內容數
ten was的沙龍的其他內容
2025/04/29
以心智圖方式來呈現AI工具介紹,方便快速記憶
Thumbnail
2025/04/29
以心智圖方式來呈現AI工具介紹,方便快速記憶
Thumbnail
2025/04/28
IPAS 名詞簡單說明
2025/04/28
IPAS 名詞簡單說明
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
在方格子這邊不少時間了。剛剛瀏覽一下數據統計,發現文章被瀏覽量超過六位數了,雖然以往不怎看這個數字統計,但是既然看到了,值得一書紀念。 其實來這邊的初心是想有系統的把自己的文章集合一下,像是私淑的小學旅行、和孩子的互動等,以往都散落在不同的地點。而且經歷了許多平台的blog都因為平台收攤而
Thumbnail
在方格子這邊不少時間了。剛剛瀏覽一下數據統計,發現文章被瀏覽量超過六位數了,雖然以往不怎看這個數字統計,但是既然看到了,值得一書紀念。 其實來這邊的初心是想有系統的把自己的文章集合一下,像是私淑的小學旅行、和孩子的互動等,以往都散落在不同的地點。而且經歷了許多平台的blog都因為平台收攤而
Thumbnail
這本書的起源來自於疫情期間,作者以數學家的角度,在網路上發表文章,幫大眾解讀疫情的統計數字是什麼意思,我看完這本書以後不禁感嘆,如果我更早理解這些概念就好了。
Thumbnail
這本書的起源來自於疫情期間,作者以數學家的角度,在網路上發表文章,幫大眾解讀疫情的統計數字是什麼意思,我看完這本書以後不禁感嘆,如果我更早理解這些概念就好了。
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程
Thumbnail
分組依據是POWER QUERY將資料統計分析的一個功能,神似EXCEL函數的SUMIF與COUNTIF,不過他的使用上更加的方便與靈活,不需要寫函數也能將多條件、多結果的統計分析迅速呈現。 如下圖例子,要將左邊資料統計分析為右邊多種種結果,用POWER QUERY只要滑鼠點幾下,數據結果馬上
Thumbnail
分組依據是POWER QUERY將資料統計分析的一個功能,神似EXCEL函數的SUMIF與COUNTIF,不過他的使用上更加的方便與靈活,不需要寫函數也能將多條件、多結果的統計分析迅速呈現。 如下圖例子,要將左邊資料統計分析為右邊多種種結果,用POWER QUERY只要滑鼠點幾下,數據結果馬上
Thumbnail
今天來講:統計模擬研究的入門文章。(2023-08-23)
Thumbnail
今天來講:統計模擬研究的入門文章。(2023-08-23)
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News