身為一位 AI 應用規劃師,你必須先從資料的宏觀角度入手,而集中趨勢測量(Central Tendency)就像是我們找資料的「重心」或「核心位置」。它幫助我們快速回答:「這堆數據,大多集中在哪個水平?」
我們來一起拆解幾個關鍵的集中趨勢測量指標,讓你看完就能秒懂!
1. 算術平均數(Arithmetic Mean)
這是我們日常生活中最常使用的指標,也是描述一組資料集中趨勢最基礎的統計量。知識點拆解:由原理到應用
平均數的原理很簡單,就是將所有的數值加總起來,再除以數據的總個數。想像一下,平均數就像是你把班上所有人的身高加起來,然後平均分給每一個人,得出的那個「平均水準」。當資料分佈相對對稱且沒有極端值時,平均數能非常有效地代表多數樣本的情況。
平均數雖然計算直覺,但它有一個致命的弱點:它對極端值(Outliers,離群值)極為敏感。如果我們在算社區平均收入時,不小心把一位億萬富翁算進去,這位極端人士會立刻把「平均收入」拉高,導致這個數字不再能代表大多數居民的真實收入水平。因此,使用平均數時,我們通常需要搭配標準差等離散量度來判斷資料的穩定性。
簡單來說,它就是大家一起平攤下來的「整體平均水準」,但很容易被幾個極端值帶跑!
【情境案例應用:電商行銷分析】
場景: 數據分析師小李正在向行銷總監報告上個月客戶的平均消費額。
小李: 「總監,我們上個月的平均客單價達到了 $3,000 元!看來推廣活動很成功。」
總監: (皺眉)「等等,小李,我們只有 100 筆訂單,其中有 5 筆是單價超過 $50,000 的極端大單。如果你用平均數,這 5 筆訂單是不是把整體數據拉高了?我們需要看看中位數是多少,來確定大多數人是不是真的消費變高了。」
小李: 「您說得對,我立刻計算中位數,避免被這幾筆『超級 VIP』的數據給誤導。」
2. 中位數(Median)
中位數是應對極端值最具抵抗力的集中趨勢測量方式。
知識點拆解:由原理到應用
中位數的計算精髓在於「位置」。我們首先必須將所有數據從最小到最大排序。排好隊後,中位數就是剛好站在隊伍正中間的那個數值。如果數據點是奇數個,它就是中間那個值;如果是偶數個,則取中間兩個數值的平均。
由於中位數只關心數據點的相對位置,所以無論隊伍兩端出現多麼極端的高價或低價(比如極端的豪宅或收入),它都不會受到影響。這使得中位數成為分析高度偏態分佈(例如收入、房價)時最可靠的集中趨勢指標。
白話講,它的作用就像是排隊時站在最中間的那個數值,完全不受那些「極端土豪」的影響!
【情境案例應用:房價趨勢分析】
場景: 房地產顧問小陳正在分析城市 Z 的房價分佈,準備給客戶建議。
小陳: 「客戶,我發現城市 Z 的房價數據是典型的右偏態(Right-skewed),也就是少數豪宅價格極高,把平均數拉上去了。如果我們看平均房價,可能會高估實際情況。我們應該優先參考中位數。中位數能更真實地反映大多數人在市場上買到的房價水準,這個數字對您的購房決策更有參考價值。」
客戶: 「原來如此,看來光看平均數是會被誤導的!」
3. 眾數(Mode)
眾數可能是三者中最不依賴數值計算,但卻最貼近「人氣」的指標。
知識點拆解:由原理到應用
眾數的原理非常直觀,它就是資料集中出現頻率最高的值。它不需要排序,也不需要加總。
【應用洞察與優勢】 眾數的最大優勢是,它是唯一適用於類別型資料(Categorical Data)的集中趨勢指標。當我們要找出「最受歡迎的產品顏色」、「最常見的客戶來源」或「某個變數中最常見的類型」時,眾數是最好的選擇。它能直接反映市場或數據中最流行的趨勢。
【總結金句】 簡單來說,它就是數據集裡面的「人氣王」,出現次數最多的那個類別或數值!
【情境案例應用:產品庫存規劃】
場景: 零售業採購經理小美正在決定下一季服飾的顏色庫存比例。
小美: 「根據我們對社群評論的文字分析,上週所有產品的顏色偏好度中,『燕麥米』出現了 3,000 次,『深海藍』出現了 1,200 次。這很清楚地告訴我們,『燕麥米』就是我們的眾數。我們必須大幅提高這種顏色的備貨量,因為它是目前市場的『人氣王』。如果我們只看平均數,根本看不出這個決策點!」
4. 進階的集中趨勢測量
除了上述三種常見指標,當我們面對特定情境時,還會使用到更專業的平均數:
- 幾何平均數(Geometric Mean): 這個指標特別適用於計算成長率或報酬率這類具有「乘積效應」的數據。例如,如果你要計算一檔股票連續五年投資報酬率的平均值,使用幾何平均數能更真實地反映累積效應,避免算術平均數可能造成的失真。
- 調和平均數(Harmonic Mean): 這個指標通常用於處理速率類的數據,比如平均行駛速度或設備油耗。它能避免算術平均數在處理效率類數據時產生的偏差,在需要「逆值」加權的場合更加準確。
總結
掌握集中趨勢測量,就是你在海量數據中找到「定錨點」的能力。記住它們各自的優缺點:平均數反映總和水準但怕極端值;中位數最穩健且適合偏態數據;眾數則專攻人氣與類別數據。將這些基礎知識牢牢掌握,你就能為後續的 AI 模型選擇與特徵工程打下堅實的基礎!










