大數據分析的關鍵知識:
一、描述性統計:數據的起點
描述性統計是大數據分析的第一步,用來總結數據的樣貌。
它包含三個重點:集中趨勢、離散程度和分佈形狀。
- 集中趨勢:幫你找到數據的「中心」。
- 均值:所有數據加起來除以總數,像計算班上平均分數。
- 小心極端值會拉高或拉低結果。
- 中位數:數據排序後的中間值,適合分析收入這種有高低差距的數據。
- 眾數:出現最多的值,像是找出最受歡迎的產品款式。
- 離散程度:看數據分散的程度。
- 範圍:最大值減最小值,簡單但容易被異常值影響。
- 標準差:數據離均值有多遠,標準差越大,數據越分散。
- 分佈形狀:了解數據的「長相」。
- 偏態:數據分佈是否對稱。
- 正偏態右邊尾巴長(如收入分佈),負偏態左邊尾巴長(如考試成績)。
- 箱形圖:展示數據的五個關鍵點(最小值、四分之一位、中位數、四分之三位、最大值),能快速看出異常值。
學習小訣竅:記住「MMM」(Mean、Median、Mode)代表集中趨勢。
想像偏態是數據分佈的「尾巴」,右長是正偏態,左長是負偏態。
二、推論性統計:從小數據猜大數據
推論性統計讓你從樣本推測整體數據的特性,因大數據時代不可能分析所有數據。這部分對AI模型評估特別重要。
- 樣本與總體:樣本是總體的一部分,比如從全校學生抽100人來推測平均身高。
- 假說檢定:像法庭審判,先假設「沒差異」(虛無假說H0),再用數據證明是否有差異(對立假說H1)。例如,測試新AI模型是否比舊模型準確。
- 大數據挑戰:數據來源可能不一致(像不同城市的數據混雜),導致推論不準,必須小心處理。
學習小訣竅:把假說檢定想成「挑戰預設」,H0是「一切正常」,H1是「有新發現」。
三、大數據技術:Hadoop與Spark的對決
大數據需要強大的工具來處理。
- Hadoop:
- 像一輛穩重的貨車,適合處理超大數據。
- 核心:HDFS存數據,MapReduce做批處理,YARN管資源。
- 優點:穩定,適合日誌分析。
- 缺點:速度慢,依賴硬盤。
- Spark:
- 像一輛高速跑車,用內存計算,速度比Hadoop快10-100倍。
- 核心:支援實時處理、SQL查詢和機器學習。
- 優點:快速靈活,適合實時分析。
- 缺點:需要更多內存。
- 視覺化工具:
- Power BI:像進階版Excel,容易上手,適合做商業報表。
- Tableau:像藝術家的畫布,視覺效果強大,適合探索複雜數據。
學習小訣竅:
記住
Hadoop是「慢但穩」,
Spark是「快而靈」。