學會三招判斷資料重心,數據分析秒懂核心!

更新 發佈閱讀 6 分鐘

身為一位 AI 應用規劃師,你必須先從資料的宏觀角度入手,而集中趨勢測量(Central Tendency)就像是我們找資料的「重心」或「核心位置」。它幫助我們快速回答:「這堆數據,大多集中在哪個水平?」

我們來一起拆解幾個關鍵的集中趨勢測量指標,讓你看完就能秒懂!


1. 算術平均數(Arithmetic Mean)

這是我們日常生活中最常使用的指標,也是描述一組資料集中趨勢最基礎的統計量。

知識點拆解:由原理到應用

平均數的原理很簡單,就是將所有的數值加總起來,再除以數據的總個數。想像一下,平均數就像是你把班上所有人的身高加起來,然後平均分給每一個人,得出的那個「平均水準」。當資料分佈相對對稱且沒有極端值時,平均數能非常有效地代表多數樣本的情況。

平均數雖然計算直覺,但它有一個致命的弱點:它對極端值(Outliers,離群值)極為敏感。如果我們在算社區平均收入時,不小心把一位億萬富翁算進去,這位極端人士會立刻把「平均收入」拉高,導致這個數字不再能代表大多數居民的真實收入水平。因此,使用平均數時,我們通常需要搭配標準差等離散量度來判斷資料的穩定性。

簡單來說,它就是大家一起平攤下來的「整體平均水準」,但很容易被幾個極端值帶跑!

【情境案例應用:電商行銷分析】

場景: 數據分析師小李正在向行銷總監報告上個月客戶的平均消費額。

小李: 「總監,我們上個月的平均客單價達到了 $3,000 元!看來推廣活動很成功。」

總監: (皺眉)「等等,小李,我們只有 100 筆訂單,其中有 5 筆是單價超過 $50,000 的極端大單。如果你用平均數,這 5 筆訂單是不是把整體數據拉高了?我們需要看看中位數是多少,來確定大多數人是不是真的消費變高了。」

小李: 「您說得對,我立刻計算中位數,避免被這幾筆『超級 VIP』的數據給誤導。」


2. 中位數(Median)

中位數是應對極端值最具抵抗力的集中趨勢測量方式。

知識點拆解:由原理到應用

中位數的計算精髓在於「位置」。我們首先必須將所有數據從最小到最大排序。排好隊後,中位數就是剛好站在隊伍正中間的那個數值。如果數據點是奇數個,它就是中間那個值;如果是偶數個,則取中間兩個數值的平均。

由於中位數只關心數據點的相對位置,所以無論隊伍兩端出現多麼極端的高價或低價(比如極端的豪宅或收入),它都不會受到影響。這使得中位數成為分析高度偏態分佈(例如收入、房價)時最可靠的集中趨勢指標。

白話講,它的作用就像是排隊時站在最中間的那個數值,完全不受那些「極端土豪」的影響

【情境案例應用:房價趨勢分析】

場景: 房地產顧問小陳正在分析城市 Z 的房價分佈,準備給客戶建議。

小陳: 「客戶,我發現城市 Z 的房價數據是典型的右偏態(Right-skewed),也就是少數豪宅價格極高,把平均數拉上去了。如果我們看平均房價,可能會高估實際情況。我們應該優先參考中位數。中位數能更真實地反映大多數人在市場上買到的房價水準,這個數字對您的購房決策更有參考價值。」

客戶: 「原來如此,看來光看平均數是會被誤導的!」


3. 眾數(Mode)

眾數可能是三者中最不依賴數值計算,但卻最貼近「人氣」的指標。

知識點拆解:由原理到應用

眾數的原理非常直觀,它就是資料集中出現頻率最高的值。它不需要排序,也不需要加總。

【應用洞察與優勢】 眾數的最大優勢是,它是唯一適用於類別型資料(Categorical Data)的集中趨勢指標。當我們要找出「最受歡迎的產品顏色」、「最常見的客戶來源」或「某個變數中最常見的類型」時,眾數是最好的選擇。它能直接反映市場或數據中最流行的趨勢。

【總結金句】 簡單來說,它就是數據集裡面的「人氣王」,出現次數最多的那個類別或數值!

【情境案例應用:產品庫存規劃】

場景: 零售業採購經理小美正在決定下一季服飾的顏色庫存比例。

小美: 「根據我們對社群評論的文字分析,上週所有產品的顏色偏好度中,『燕麥米』出現了 3,000 次,『深海藍』出現了 1,200 次。這很清楚地告訴我們,『燕麥米』就是我們的眾數。我們必須大幅提高這種顏色的備貨量,因為它是目前市場的『人氣王』。如果我們只看平均數,根本看不出這個決策點!」


4. 進階的集中趨勢測量

除了上述三種常見指標,當我們面對特定情境時,還會使用到更專業的平均數:

  • 幾何平均數(Geometric Mean): 這個指標特別適用於計算成長率或報酬率這類具有「乘積效應」的數據。例如,如果你要計算一檔股票連續五年投資報酬率的平均值,使用幾何平均數能更真實地反映累積效應,避免算術平均數可能造成的失真。
  • 調和平均數(Harmonic Mean): 這個指標通常用於處理速率類的數據,比如平均行駛速度或設備油耗。它能避免算術平均數在處理效率類數據時產生的偏差,在需要「逆值」加權的場合更加準確。

總結

掌握集中趨勢測量,就是你在海量數據中找到「定錨點」的能力。記住它們各自的優缺點:平均數反映總和水準但怕極端值;中位數最穩健且適合偏態數據;眾數則專攻人氣與類別數據。將這些基礎知識牢牢掌握,你就能為後續的 AI 模型選擇與特徵工程打下堅實的基礎!

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
10會員
43內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
iPAS AI 自學路的其他內容
2025/10/30
想像一下,當資料不再是小小的 Excel 表格,而是每秒鐘都有數十萬筆交易流進來的即時串流(Streaming Data)時,我們還能像以前一樣,悠哉地把所有數據點載入記憶體,然後慢慢排序來計算「中位數」(Median)或「百分位數」(Percentile)嗎?答案是:不行!這會拖垮系統!
2025/10/30
想像一下,當資料不再是小小的 Excel 表格,而是每秒鐘都有數十萬筆交易流進來的即時串流(Streaming Data)時,我們還能像以前一樣,悠哉地把所有數據點載入記憶體,然後慢慢排序來計算「中位數」(Median)或「百分位數」(Percentile)嗎?答案是:不行!這會拖垮系統!
2025/10/30
敘述性統計(Descriptive Statistics)是我們駕馭資料的第一道門檻,它的核心目標非常純粹:不是去推論母體,而是將手邊龐大複雜的資料,做最快速、最清晰的總結與可視化呈現。 讓我們從來源提供的資訊中,將敘述性統計這個面向,拆解成三個核心的分析維度:集中趨勢、離散度量,以及分佈形狀。
2025/10/30
敘述性統計(Descriptive Statistics)是我們駕馭資料的第一道門檻,它的核心目標非常純粹:不是去推論母體,而是將手邊龐大複雜的資料,做最快速、最清晰的總結與可視化呈現。 讓我們從來源提供的資訊中,將敘述性統計這個面向,拆解成三個核心的分析維度:集中趨勢、離散度量,以及分佈形狀。
2025/10/30
今天我們要深入探討一個超級重要的知識點,那就是在「統計學在大數據中的應用(L22301)」這個大背景下,我們的老朋友——敘述統計(Descriptive Statistics)——面對大數據環境時,遭遇了哪些嚴峻的挑戰與限制! 敘述統計(像平均數、中位數、標準差)是我們分析數據的「第一道防線」,用
2025/10/30
今天我們要深入探討一個超級重要的知識點,那就是在「統計學在大數據中的應用(L22301)」這個大背景下,我們的老朋友——敘述統計(Descriptive Statistics)——面對大數據環境時,遭遇了哪些嚴峻的挑戰與限制! 敘述統計(像平均數、中位數、標準差)是我們分析數據的「第一道防線」,用
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
邏輯,是幫助我們判斷事理的重要因子。本篇我們將從表述、系統、思維下手來探討如何透過邏輯來幫助我們看清問題,甚至是解決問題。
Thumbnail
邏輯,是幫助我們判斷事理的重要因子。本篇我們將從表述、系統、思維下手來探討如何透過邏輯來幫助我們看清問題,甚至是解決問題。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
日前在LINE社群,有網友提出一個問題,要把資料進行分析,用日期來計算出將對應的資料。 原始資料,密密麻麻的數據,都看不清楚了 放大一點點 要把這些資料不同『料號』的各種『狀態』依據『日期』進行分析。 有興趣可以下載試著挑戰看看:檔案下載 作法有很多種,當然也可以用函數處
Thumbnail
日前在LINE社群,有網友提出一個問題,要把資料進行分析,用日期來計算出將對應的資料。 原始資料,密密麻麻的數據,都看不清楚了 放大一點點 要把這些資料不同『料號』的各種『狀態』依據『日期』進行分析。 有興趣可以下載試著挑戰看看:檔案下載 作法有很多種,當然也可以用函數處
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News