敘述性統計(Descriptive Statistics)是我們駕馭資料的第一道門檻,它的核心目標非常純粹:不是去推論母體,而是將手邊龐大複雜的資料,做最快速、最清晰的總結與可視化呈現。
讓我們從來源提供的資訊中,將敘述性統計這個面向,拆解成三個核心的分析維度:集中趨勢、離散度量,以及分佈形狀。
1. 核心面向一:集中趨勢(Central Tendency)
集中趨勢旨在刻畫資料的「中心點」或「整體水準」,幫助我們掌握資料最常見或核心的位置。想像你的資料是一群人,集中趨勢就是找出這群人站在哪裡最合適:
- 平均數(Mean / 算術平均): 它是最常用、概念最直覺的指標,計算方式就是所有數值加總後除以個數。簡單來說,它代表了資料的平均水平或整體水準。 白話講,它的作用就像是一群人的總體重量被平均分攤到每個人身上。 雖然簡單,但它最大的限制是「對極端值敏感」。如果你的資料集中出現了極少數的超高薪資(離群值),平均數就會被拉高,無法真實反映多數人的情況。
- 中位數(Median): 這是將資料排序後,位於正中間的那個數值。 白話講,它的作用就像是在一個隊伍中,站在正中央的那個人。 由於它只看位置,它最大的優勢是對離群值(極端值)具有高度抵抗力。當資料分佈明顯偏斜(例如房價或收入),中位數通常比平均數更能準確代表「典型」的數值。
- 眾數(Mode): 這是資料中出現頻率最高的值。 白話講,它的作用就像是「最受歡迎的選項」。 它適用於類別型資料,能夠快速指出最常見的類型或群組,且不受極端值的影響。
2. 核心面向二:離散度與分佈結構(Variability / Dispersion)
僅僅知道中心點是不夠的,我們還需要知道資料是緊密聚集在中心,還是分散得七零八落。離散度量就是量化資料分散程度的工具。
- 標準差(Standard Deviation, SD): 這是最主要的離散程度指標。 白話講,它的作用就像是衡量所有數據點平均偏離中心值的程度。標準差越大,代表資料點越分散、波動性越高,就像生產線上的產品品質越不穩定。
- 四分位距(Interquartile Range, IQR): 這是第三四分位數(Q3,75%位置)與第一四分位數(Q1,25%位置)之間的差異。 白話講,它的作用就像是資料中間 50%的「核心範圍」有多寬。 IQR 的優勢在於,它不包含極端值,因此特別適合處理含有離群值的資料,能準確反映資料的集中分佈範圍。
- 箱形圖(Box Plot): 這是將集中趨勢和離散度量合為一體的「視覺化摘要」。 白話講,它的作用就像是資料的體檢報告。 它用一條水平線(中位數 Q2)、一個盒子(Q1到 Q3之間的 IQR),以及兩條鬚線,直觀地展示資料分佈、變異性,並用獨立的點或星號標註離群值(超出 IQR 1.5倍的範圍)。這讓分析人員在探索性資料分析(EDA)階段能秒懂資料結構與潛在問題。
3. 核心面向三:分佈形狀(Shape)
除了中心點和分散程度,我們還得觀察資料分佈的整體形狀,主要透過偏度(Skewness)和峰度(Kurtosis)來評估:
- 偏度(Skewness): 衡量資料分佈的對稱程度。 白話講,它的作用就像是判斷資料的「尾巴」偏向哪一邊。 判斷依據: 若偏度為正(右偏態),平均數會被極端高值拉高,大於中位數。若偏度為負(左偏態),平均數會小於中位數。當資料呈現明顯偏態時,例如左偏(負偏態),建議優先使用中位數作為集中趨勢的代表。
- 峰度(Kurtosis): 衡量資料分佈的尖峰程度與尾部厚度。 白話講,它的作用就像是判斷資料的「腰身」是尖是扁,以及尾巴(極端值)是不是特別肥厚。 判斷依據: 峰度大於 3(高峰分佈)表示資料比常態分佈更集中於中心,且有更多的極端值。
4. 大數據下的挑戰與敘述統計的進化
在傳統統計中表現良好的敘述統計指標,面對大數據環境(資料量大、速度快、非結構化)時,也面臨新的挑戰:
- 運算資源限制與即時性要求: 數十億筆資料無法一次性載入記憶體進行計算,傳統的掃描彙總方式效能難以支撐,尤其當資料來自即時串流時。
- 統計指標失真: 大數據中常見的極度偏態或長尾分佈,會使平均數等指標被極端值顯著扭曲,無法準確反映中心趨勢。同時,極少數的異常值(如詐欺行為)可能因為資料量過大而被稀釋,使傳統統計量反應遲鈍。
- 多型態資料處理: 大數據包含文字、圖片、感測器訊號等非結構化資料,這些資料不具明確數值欄位,難以直接應用平均數、變異數等傳統運算。
為了解決這些問題,敘述統計在大數據平台中走向「近似計算」。例如,我們可以透過 t-digest 技術,以可容忍的誤差範圍內,快速地估算中位數和任意分位數,特別適用於處理大規模且偏態分佈的串流數據。這讓我們能夠在不犧牲效率的前提下,獲得對資料結構的快速洞察。
簡單來說,敘述性統計就是「你手頭上資料的體檢報告」,它透過集中趨勢、離散度與形狀這三大面向,幫你快速搞清楚資料的平均水準在哪裡、波動程度有多大,以及有沒有極端值在作怪,是所有進階AI建模的起點!
場景:電商產品經理分析新產品的銷售額分佈
- 人物: 產品經理小艾 (分析師) vs. 行銷總監大山 (決策者)
小艾: 「總監,我們上個月推出的『A產品』銷售額摘要出來了。這資料分佈有點怪,我建議我們看中位數,而不是平均數。」
大山: 「為什麼?平均銷售額不是 $5,000 嗎?看起來還不錯啊。」
小艾: 「是的,平均數是 $5,000,但你看我們的箱形圖,雖然平均數高,但中位數只有 $2,500。而且,數據顯示有明顯的正偏態,我們的標準差也偏大。這說明了大部分訂單金額都集中在低價區,是少數幾筆『極端高價訂單』把平均數拉高了。這就像 90%的單子只賺了 $2,000,但有 1%的 VIP 買了 $50,000,這 1%的離群值把我們的平均表現給掩蓋了!」
大山: 「原來如此!白話講,我們不能只看那個被有錢人拉高的平均數。那我們的核心客戶實際上只願意支付 $2,500。看來我們得針對那 1%的高價離群值客戶,設計不同的行銷策略了!」











