敘述性統計(Descriptive Statistics)是我們駕馭資料的第一道門檻。請記住,它的核心目標非常純粹:不是去推論母體,而是將手邊龐大複雜的資料,做最快速、最清晰的總結。
如果把資料當作一位病人,敘述性統計就是他的「體檢報告」。這份報告通常由三個核心維度組成:集中趨勢(中心在哪?)、離散程度(穩不穩?)、以及分佈形狀(長怎樣?)。
一、 集中趨勢:尋找資料的「重心」
想像你的資料是一群人,集中趨勢就是找出這群人站在哪裡最合適。但要小心,選錯指標,你看到的「真相」可能完全是錯的。1. 算術平均數 (Mean):最直覺,但也最容易被騙
這是最常用的指標,代表整體的平均水準。但它有一個致命傷:對極端值(Outliers)毫無抵抗力。
- 盲點: 如果你和比爾蓋茲在同一個房間,你們的「平均財產」會是幾百億美金,但这能代表你的真實財力嗎?當然不行。當資料出現極端值時,平均數會失真。
2. 中位數 (Median):抗干擾的定海神針
將資料從頭到尾排排站,站在正中間的那位就是中位數。
- 優勢: 它只看「位置」,不看「數值大小」。無論隊伍末端的極端值多誇張(例如房價、薪資),中位數都不受影響。當資料分佈明顯偏斜(Skewed)時,中位數絕對比平均數可靠。
3. 眾數 (Mode):人氣王
資料中出現頻率最高的數值。它是唯一能用於「類別型資料」(如最熱賣的顏色、最常見的血型)的指標。
二、 進階武器:特殊場景下的平均數
身為 AI 應用規劃師,你還會遇到兩種「平均數失效」的特殊場景,這時候請務必換上專用武器:
1. 幾何平均數 (Geometric Mean):對付「成長率」
當數據涉及「複利」或「連續乘積」(如投資報酬率、人口成長率)時,算術平均數會高估結果。
- 應用: 計算一檔股票連續三年的平均獲利,必須用幾何平均數才能反映「利滾利」的真實效果。
2. 調和平均數 (Harmonic Mean):對付「速率」
當數據涉及「效率」或「速度」(如平均時速、生產良率)時,必須使用調和平均數。
- 原理: 它的核心是「倒數平均」,會自動給予「耗時較長(速度慢)」的路段更高的權重。如果你去程時速 100,回程時速 50,直接平均算 75 是錯的!真正的平均速率應該更低,這時就得靠調和平均數來還原真相。
三、 離散程度:評估資料的「風險」與「穩定度」
光知道中心點是不夠的,我們還得知道資料是「團結」還是「一盤散沙」。
1. 標準差 (Standard Deviation):穩定性的指標
它衡量數據點平均偏離中心的程度。
- 判讀: 標準差越小,資料越集中,代表品質越穩定;標準差越大,代表波動越劇烈,預測風險也越高。
2. 四分位距 (IQR):抗極端值的裝甲
它是第三四分位數(Q3,75%位置)減去第一四分位數(Q1,25%位置)的結果。
- 必殺技: IQR 鎖定的是資料「中間 50%」的核心範圍。因為直接切掉了頭尾,它完全無視極端值的干擾。在清洗資料時,IQR 是判定離群值最好的工具。
3. 箱形圖 (Box Plot):一眼看穿資料結構

這是將上述概念視覺化的神器,也是考試圖表題的常客。它用一個盒子(IQR)和兩條鬚線,直觀展示資料分佈。
- 離群值抓捕: 通常定義在
Q3 + 1.5×IQR和Q1 - 1.5×IQR之外的點,箱形圖會把它們標示為獨立的點。看到這些點,你就知道資料裡有「怪東西」了。
四、 實戰對決:當老闆只看平均數時
讓我們用一個經典的職場場景,把上述觀念串起來。
場景: 電商產品經理小艾 (分析師) vs. 行銷總監大山 (決策者)
總監大山: 「小艾,上個月A產品的平均客單價是 $5,000,業績看起來很棒啊!」
小艾 (搖頭): 「總監,這數字會騙人。我檢查了箱形圖和偏度(Skewness),雖然平均是 $5,000,但中位數其實只有 $2,500。」
總監大山: 「怎麼差這麼多?」
小艾: 「因為我們有 1% 的客戶是『超高價離群值』,他們把平均數強行拉高了,就像比爾蓋茲走進了房間。但對這 99% 的核心客群來說,他們只願意花 $2,500。 此外,我們的標準差很大,代表訂單金額很不穩定。如果我們只看平均數 $5,000 來制定下季的促銷門檻,會嚇跑那 99% 的主力客戶!」
總監大山: 「懂了!原來那個漂亮的平均數是被有錢人墊高的。那我們應該改用中位數來當作定價基準。」
五、 備考小提醒:大數據下的 t-digest
最後補充一個實務觀念。在海量數據(Big Data)環境下,要排序幾億筆資料來算中位數非常耗費資源。
這時我們會使用 t-digest 這類演算法。它不追求 100% 精確,而是透過「近似計算」,在極短時間內估算出誤差極低的中位數或百分位數。這是處理即時大數據監控時的必備技術,也是區分「理論派」與「實戰派」的關鍵知識點。













