為什麼平均數、中位數不能只看一個？(L22101)

iPAS AI自學路

發佈於iPAS AI應用規劃師中級

2025/10/30 更新2025/10/30 發佈閱讀 7 分鐘

敘述性統計（Descriptive Statistics）是我們駕馭資料的第一道門檻，它的核心目標非常純粹：不是去推論母體，而是將手邊龐大複雜的資料，做最快速、最清晰的總結與可視化呈現。

讓我們從來源提供的資訊中，將敘述性統計這個面向，拆解成三個核心的分析維度：集中趨勢、離散度量，以及分佈形狀。

1. 核心面向一：集中趨勢（Central Tendency）

集中趨勢旨在刻畫資料的「中心點」或「整體水準」，幫助我們掌握資料最常見或核心的位置。

想像你的資料是一群人，集中趨勢就是找出這群人站在哪裡最合適：

平均數（Mean / 算術平均）：它是最常用、概念最直覺的指標，計算方式就是所有數值加總後除以個數。簡單來說，它代表了資料的平均水平或整體水準。白話講，它的作用就像是一群人的總體重量被平均分攤到每個人身上。雖然簡單，但它最大的限制是「對極端值敏感」。如果你的資料集中出現了極少數的超高薪資（離群值），平均數就會被拉高，無法真實反映多數人的情況。
中位數（Median）：這是將資料排序後，位於正中間的那個數值。白話講，它的作用就像是在一個隊伍中，站在正中央的那個人。由於它只看位置，它最大的優勢是對離群值（極端值）具有高度抵抗力。當資料分佈明顯偏斜（例如房價或收入），中位數通常比平均數更能準確代表「典型」的數值。
眾數（Mode）：這是資料中出現頻率最高的值。白話講，它的作用就像是「最受歡迎的選項」。 它適用於類別型資料，能夠快速指出最常見的類型或群組，且不受極端值的影響。

2. 核心面向二：離散度與分佈結構（Variability / Dispersion）

僅僅知道中心點是不夠的，我們還需要知道資料是緊密聚集在中心，還是分散得七零八落。離散度量就是量化資料分散程度的工具。

標準差（Standard Deviation, SD）：這是最主要的離散程度指標。白話講，它的作用就像是衡量所有數據點平均偏離中心值的程度。標準差越大，代表資料點越分散、波動性越高，就像生產線上的產品品質越不穩定。
四分位距（Interquartile Range, IQR）：這是第三四分位數（Q3，75%位置）與第一四分位數（Q1，25%位置）之間的差異。白話講，它的作用就像是資料中間 50%的「核心範圍」有多寬。 IQR 的優勢在於，它不包含極端值，因此特別適合處理含有離群值的資料，能準確反映資料的集中分佈範圍。
箱形圖（Box Plot）：這是將集中趨勢和離散度量合為一體的「視覺化摘要」。白話講，它的作用就像是資料的體檢報告。它用一條水平線（中位數 Q2）、一個盒子（Q1到 Q3之間的 IQR），以及兩條鬚線，直觀地展示資料分佈、變異性，並用獨立的點或星號標註離群值（超出 IQR 1.5倍的範圍）。這讓分析人員在探索性資料分析（EDA）階段能秒懂資料結構與潛在問題。

3. 核心面向三：分佈形狀（Shape）

除了中心點和分散程度，我們還得觀察資料分佈的整體形狀，主要透過偏度（Skewness）和峰度（Kurtosis）來評估：

偏度（Skewness）：衡量資料分佈的對稱程度。白話講，它的作用就像是判斷資料的「尾巴」偏向哪一邊。判斷依據：若偏度為正（右偏態），平均數會被極端高值拉高，大於中位數。若偏度為負（左偏態），平均數會小於中位數。當資料呈現明顯偏態時，例如左偏（負偏態），建議優先使用中位數作為集中趨勢的代表。
峰度（Kurtosis）：衡量資料分佈的尖峰程度與尾部厚度。白話講，它的作用就像是判斷資料的「腰身」是尖是扁，以及尾巴（極端值）是不是特別肥厚。判斷依據：峰度大於 3（高峰分佈）表示資料比常態分佈更集中於中心，且有更多的極端值。

4. 大數據下的挑戰與敘述統計的進化

在傳統統計中表現良好的敘述統計指標，面對大數據環境（資料量大、速度快、非結構化）時，也面臨新的挑戰：

運算資源限制與即時性要求：數十億筆資料無法一次性載入記憶體進行計算，傳統的掃描彙總方式效能難以支撐，尤其當資料來自即時串流時。
統計指標失真：大數據中常見的極度偏態或長尾分佈，會使平均數等指標被極端值顯著扭曲，無法準確反映中心趨勢。同時，極少數的異常值（如詐欺行為）可能因為資料量過大而被稀釋，使傳統統計量反應遲鈍。
多型態資料處理：大數據包含文字、圖片、感測器訊號等非結構化資料，這些資料不具明確數值欄位，難以直接應用平均數、變異數等傳統運算。

為了解決這些問題，敘述統計在大數據平台中走向「近似計算」。例如，我們可以透過 t-digest 技術，以可容忍的誤差範圍內，快速地估算中位數和任意分位數，特別適用於處理大規模且偏態分佈的串流數據。這讓我們能夠在不犧牲效率的前提下，獲得對資料結構的快速洞察。

簡單來說，敘述性統計就是「你手頭上資料的體檢報告」，它透過集中趨勢、離散度與形狀這三大面向，幫你快速搞清楚資料的平均水準在哪裡、波動程度有多大，以及有沒有極端值在作怪，是所有進階AI建模的起點！

場景：電商產品經理分析新產品的銷售額分佈

人物：產品經理小艾 (分析師) vs. 行銷總監大山 (決策者)

小艾： 「總監，我們上個月推出的『A產品』銷售額摘要出來了。這資料分佈有點怪，我建議我們看中位數，而不是平均數。」

大山： 「為什麼？平均銷售額不是 $5,000 嗎？看起來還不錯啊。」

小艾： 「是的，平均數是 $5,000，但你看我們的箱形圖，雖然平均數高，但中位數只有 $2,500。而且，數據顯示有明顯的正偏態，我們的標準差也偏大。這說明了大部分訂單金額都集中在低價區，是少數幾筆『極端高價訂單』把平均數拉高了。這就像 90%的單子只賺了 $2,000，但有 1%的 VIP 買了 $50,000，這 1%的離群值把我們的平均表現給掩蓋了！」

大山： 「原來如此！白話講，我們不能只看那個被有錢人拉高的平均數。那我們的核心客戶實際上只願意支付 $2,500。看來我們得針對那 1%的高價離群值客戶，設計不同的行銷策略了！」