為什麼平均數、中位數不能只看一個?(L22101)

更新 發佈閱讀 7 分鐘

敘述性統計(Descriptive Statistics)是我們駕馭資料的第一道門檻,它的核心目標非常純粹:不是去推論母體,而是將手邊龐大複雜的資料,做最快速、最清晰的總結與可視化呈現

讓我們從來源提供的資訊中,將敘述性統計這個面向,拆解成三個核心的分析維度:集中趨勢、離散度量,以及分佈形狀


1. 核心面向一:集中趨勢(Central Tendency)

集中趨勢旨在刻畫資料的「中心點」或「整體水準」,幫助我們掌握資料最常見或核心的位置。

想像你的資料是一群人,集中趨勢就是找出這群人站在哪裡最合適:

  • 平均數(Mean / 算術平均): 它是最常用、概念最直覺的指標,計算方式就是所有數值加總後除以個數。簡單來說,它代表了資料的平均水平或整體水準。 白話講,它的作用就像是一群人的總體重量被平均分攤到每個人身上。 雖然簡單,但它最大的限制是「對極端值敏感」。如果你的資料集中出現了極少數的超高薪資(離群值),平均數就會被拉高,無法真實反映多數人的情況。
  • 中位數(Median): 這是將資料排序後,位於正中間的那個數值。 白話講,它的作用就像是在一個隊伍中,站在正中央的那個人。 由於它只看位置,它最大的優勢是對離群值(極端值)具有高度抵抗力。當資料分佈明顯偏斜(例如房價或收入),中位數通常比平均數更能準確代表「典型」的數值。
  • 眾數(Mode): 這是資料中出現頻率最高的值。 白話講,它的作用就像是「最受歡迎的選項」。 它適用於類別型資料,能夠快速指出最常見的類型或群組,且不受極端值的影響。

2. 核心面向二:離散度與分佈結構(Variability / Dispersion)

僅僅知道中心點是不夠的,我們還需要知道資料是緊密聚集在中心,還是分散得七零八落。離散度量就是量化資料分散程度的工具。

  • 標準差(Standard Deviation, SD): 這是最主要的離散程度指標。 白話講,它的作用就像是衡量所有數據點平均偏離中心值的程度。標準差越大,代表資料點越分散、波動性越高,就像生產線上的產品品質越不穩定。
  • 四分位距(Interquartile Range, IQR): 這是第三四分位數(Q3,75%位置)與第一四分位數(Q1,25%位置)之間的差異。 白話講,它的作用就像是資料中間 50%的「核心範圍」有多寬。 IQR 的優勢在於,它不包含極端值,因此特別適合處理含有離群值的資料,能準確反映資料的集中分佈範圍。
  • 箱形圖(Box Plot): 這是將集中趨勢和離散度量合為一體的「視覺化摘要」。 白話講,它的作用就像是資料的體檢報告。 它用一條水平線(中位數 Q2)、一個盒子(Q1到 Q3之間的 IQR),以及兩條鬚線,直觀地展示資料分佈、變異性,並用獨立的點或星號標註離群值(超出 IQR 1.5倍的範圍)。這讓分析人員在探索性資料分析(EDA)階段能秒懂資料結構與潛在問題。

3. 核心面向三:分佈形狀(Shape)

除了中心點和分散程度,我們還得觀察資料分佈的整體形狀,主要透過偏度(Skewness)和峰度(Kurtosis)來評估:

  • 偏度(Skewness): 衡量資料分佈的對稱程度。 白話講,它的作用就像是判斷資料的「尾巴」偏向哪一邊。 判斷依據: 若偏度為正(右偏態),平均數會被極端高值拉高,大於中位數。若偏度為負(左偏態),平均數會小於中位數。當資料呈現明顯偏態時,例如左偏(負偏態),建議優先使用中位數作為集中趨勢的代表。
  • 峰度(Kurtosis): 衡量資料分佈的尖峰程度與尾部厚度。 白話講,它的作用就像是判斷資料的「腰身」是尖是扁,以及尾巴(極端值)是不是特別肥厚。 判斷依據: 峰度大於 3(高峰分佈)表示資料比常態分佈更集中於中心,且有更多的極端值。

4. 大數據下的挑戰與敘述統計的進化

在傳統統計中表現良好的敘述統計指標,面對大數據環境(資料量大、速度快、非結構化)時,也面臨新的挑戰:

  1. 運算資源限制與即時性要求: 數十億筆資料無法一次性載入記憶體進行計算,傳統的掃描彙總方式效能難以支撐,尤其當資料來自即時串流時。
  2. 統計指標失真: 大數據中常見的極度偏態或長尾分佈,會使平均數等指標被極端值顯著扭曲,無法準確反映中心趨勢。同時,極少數的異常值(如詐欺行為)可能因為資料量過大而被稀釋,使傳統統計量反應遲鈍。
  3. 多型態資料處理: 大數據包含文字、圖片、感測器訊號等非結構化資料,這些資料不具明確數值欄位,難以直接應用平均數、變異數等傳統運算。

為了解決這些問題,敘述統計在大數據平台中走向「近似計算」。例如,我們可以透過 t-digest 技術,以可容忍的誤差範圍內,快速地估算中位數和任意分位數,特別適用於處理大規模且偏態分佈的串流數據。這讓我們能夠在不犧牲效率的前提下,獲得對資料結構的快速洞察。


簡單來說,敘述性統計就是「你手頭上資料的體檢報告」,它透過集中趨勢、離散度與形狀這三大面向,幫你快速搞清楚資料的平均水準在哪裡波動程度有多大,以及有沒有極端值在作怪,是所有進階AI建模的起點!



場景:電商產品經理分析新產品的銷售額分佈

  • 人物: 產品經理小艾 (分析師) vs. 行銷總監大山 (決策者)

小艾: 「總監,我們上個月推出的『A產品』銷售額摘要出來了。這資料分佈有點怪,我建議我們看中位數,而不是平均數。」

大山: 「為什麼?平均銷售額不是 $5,000 嗎?看起來還不錯啊。」

小艾: 「是的,平均數是 $5,000,但你看我們的箱形圖,雖然平均數高,但中位數只有 $2,500。而且,數據顯示有明顯的正偏態,我們的標準差也偏大。這說明了大部分訂單金額都集中在低價區,是少數幾筆『極端高價訂單』把平均數拉高了。這就像 90%的單子只賺了 $2,000,但有 1%的 VIP 買了 $50,000,這 1%的離群值把我們的平均表現給掩蓋了!」

大山: 「原來如此!白話講,我們不能只看那個被有錢人拉高的平均數。那我們的核心客戶實際上只願意支付 $2,500。看來我們得針對那 1%的高價離群值客戶,設計不同的行銷策略了!」

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
5會員
39內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
你可能也想看
Thumbnail
這篇是給初學技術分析者的建議,覺得去蕪存菁,最簡潔有效的東西。 1.認識什麼是K線,開高低收,成交量。 2.知道均線與均量的數學意義。 3.學習簡單的走勢型態,比如W底M頭,切線,跳空缺口。 以上3點就足夠了,不管基於什麼說法想法理由,都不要花時間去學任何其他指標。
Thumbnail
這篇是給初學技術分析者的建議,覺得去蕪存菁,最簡潔有效的東西。 1.認識什麼是K線,開高低收,成交量。 2.知道均線與均量的數學意義。 3.學習簡單的走勢型態,比如W底M頭,切線,跳空缺口。 以上3點就足夠了,不管基於什麼說法想法理由,都不要花時間去學任何其他指標。
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
這本書的起源來自於疫情期間,作者以數學家的角度,在網路上發表文章,幫大眾解讀疫情的統計數字是什麼意思,我看完這本書以後不禁感嘆,如果我更早理解這些概念就好了。
Thumbnail
這本書的起源來自於疫情期間,作者以數學家的角度,在網路上發表文章,幫大眾解讀疫情的統計數字是什麼意思,我看完這本書以後不禁感嘆,如果我更早理解這些概念就好了。
Thumbnail
會,因為日常生活中充斥著各式統計報告,若不懂統計,容易被誤導。具有統計概念可以幫助我們找出對的統計報告,做更明智的做出決策。一般人可以先學習如何判讀統計報告和留意統計的應用開始,培養如何獨立思考。
Thumbnail
會,因為日常生活中充斥著各式統計報告,若不懂統計,容易被誤導。具有統計概念可以幫助我們找出對的統計報告,做更明智的做出決策。一般人可以先學習如何判讀統計報告和留意統計的應用開始,培養如何獨立思考。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
透過探討指數級增長、常態分布與冪律分布在選擇行業時的應用,強調了分析邊際成本和市場分布特性的重要性。作者挑戰傳統追隨者思維,提倡創新和尋找獨特優勢,並透過服務業例子展示如何應用這些底層邏輯進行前瞻性決策,幫助讀者識別增長機會,制定成功策略。
Thumbnail
透過探討指數級增長、常態分布與冪律分布在選擇行業時的應用,強調了分析邊際成本和市場分布特性的重要性。作者挑戰傳統追隨者思維,提倡創新和尋找獨特優勢,並透過服務業例子展示如何應用這些底層邏輯進行前瞻性決策,幫助讀者識別增長機會,制定成功策略。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News