學會!用IQR秒抗極端值偷襲!(L22101)

更新 發佈閱讀 5 分鐘

我們現在要深入探討機器學習與大數據分析的基礎——「敘述性統計與資料摘要技術 (L22101)」中的核心指標:離散程度測量!

當我們在看一組資料時,光知道「平均數」是遠遠不夠的!平均數告訴你資料的中心在哪裡,但卻沒有告訴你資料有多「乖」或有多「亂」。

想像一下,兩組學生的平均分數都是 80 分。第一組所有人都考 80 分,第二組卻有人考 100 分,有人考 60 分。雖然平均一樣,但背後的風險與穩定度卻天差地遠!

這就是為什麼「離散程度測量」這麼關鍵!它是我們對資料進行風險評估、品質控制與異常偵測的第一道防線。

知識點拆解:離散程度測量(Measures of Dispersion)

離散程度測量(Variability/Dispersion)旨在量化資料分散的程度,並辨識極端值或偏離中心的情況。白話來說,它就像是資料的「波動幅度計」,數值越大,代表資料越分散、越不穩定。

針對這個核心概念,我們有幾種常用的測量工具,它們各自有不同的優勢和應用情境:

1. 標準差與變異數(Standard Deviation and Variance)

  • 原理到應用: 變異數和標準差是衡量數據偏離平均數程度最常見的指標。標準差(sigma)是變異數的平方根,這讓它的單位與原始資料一致,方便我們直觀解讀。
  • 白話類比: 標準差就像是「資料的穩定性保證書」。 如果標準差小,代表資料點緊緊聚集在平均值附近,數據非常集中、品質穩定。 在製造業中,標準差大意味著生產過程波動大,產品品質不穩定,良率也會降低。
  • 關鍵限制: 標準差和變異數最大的限制是它們對極端值(離群值)極為敏感,少數異常點可能顯著扭曲計算結果。

2. 全距(Range)

  • 原理到應用: 全距是最簡單的計算方式,即資料中的最大值減去最小值。
  • 白話類比: 它的作用就像是「快速的資料範圍總覽」。它能快速顯示資料的總體範圍。
  • 關鍵限制: 因為它只考慮最大值和最小值,所以一個單一的極端值就可能大幅影響全距,使其無法精確反映全體的分散情形。

3. 四分位距與四分位數(IQR and Quartiles)

  • 原理到應用: 為了抵抗極端值的影響,我們引入了四分位數(Quartiles)的概念。我們將資料排序後分成四個等份,得到 Q1(25%)和 Q3(75%)。
  • 四分位距(IQR) 定義為 Q3 減去 Q1。
  • 白話類比: 四分位距是「抗極端值的裝甲」。它只專注於資料中間 50% 的核心範圍,因此不受最極端的頭部和尾部數據影響。
  • 優勢: 當資料分佈偏斜或含有眾多離群值時,IQR 比標準差更能準確反映資料核心的變異性。

輔助工具:箱形圖(Box Plot)

光看數字還不夠,我們需要視覺化來輔助理解離散度!箱形圖(Box Plot,又稱盒鬚圖)就是專門為此設計的工具,在資料探索階段(EDA)非常實用。

  • 核心功能: 箱形圖能將集中趨勢(中位數,即盒中的線)與離散程度(IQR,即盒子的長度)濃縮在一張圖中。
  • 異常值偵測: 箱形圖的「鬚」(Whiskers)通常定義在 Q3 + 1.5×IQR$ 和 Q1 - 1.5 × IQR$。任何超出這個範圍的點,都會被單獨標記為離群值(Outliers)。這使得它成為快速檢測異常數據的利器。

白話講,離散程度測量的作用就像是資料的穩定度與風險係數報告,告訴你平均數背後,數據是否集中穩定,還是分散波動,讓我們知道資料品質與預測風險有多高!

情境案例應用

情境: 假設一家精密零件製造廠,正在監控生產線上關鍵零件的「厚度」(目標平均值 10.0mm)。工廠經理想知道機器運作是否穩定。

角色對話:

經理 (Mike): 「數據分析師 Amy,我們上個月零件厚度的平均數是 10.05mm,很接近目標。但良率還是不高,這是為什麼?」

分析師 (Amy): 「Mike 經理,光看平均數不夠。我已經計算了離散程度:

  1. 標準差(SD): 上個月是 1.5mm,遠高於品質標準要求的 0.5mm。
  2. IQR: 雖然中位數很準,但 IQR 顯示中間 50% 的零件厚度範圍,其實比標準範圍寬了 40%。
  3. 箱形圖: 您看這張圖,有很多紅點標示的離群值!它們超過了 Q1 - 1.5 × IQR 的穩定範圍,這代表機台在運作時,會週期性地產生極厚的或極薄的廢品。」

經理 (Mike): 「原來如此!這說明我們的機台雖然『平均』還行,但『波動幅度』太大。這些紅點就是導致良率下降的罪魁禍首。所以,我們不能只看平均,而是要專注在降低標準差和處理這些離群值,才能真正穩定生產線!」

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
10會員
47內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
iPAS AI 自學路的其他內容
2025/10/31
統計學從來都不是為了「計算而計算」,它的價值在於幫助我們在不確定性中做出可衡量的判斷。當數據規模巨大時,我們不是拋棄統計,而是要調整戰略,讓它更好地服務於業務場景! 核心觀點:從「嚴謹推論」轉向「實務效益權衡」 在大數據環境下,資料量大、更新快速、來源複雜,這使得傳統統計推論所依賴的假設(如隨
2025/10/31
統計學從來都不是為了「計算而計算」,它的價值在於幫助我們在不確定性中做出可衡量的判斷。當數據規模巨大時,我們不是拋棄統計,而是要調整戰略,讓它更好地服務於業務場景! 核心觀點:從「嚴謹推論」轉向「實務效益權衡」 在大數據環境下,資料量大、更新快速、來源複雜,這使得傳統統計推論所依賴的假設(如隨
2025/10/31
學員們,大家好!很高興我們能繼續深入探討「集中趨勢測量」這個主題。在前面我們討論了最基礎的平均數、中位數和眾數,但身為一位專業的 AI 應用規劃師,你必須知道在特定場景下,這些常規指標會「失真」!
2025/10/31
學員們,大家好!很高興我們能繼續深入探討「集中趨勢測量」這個主題。在前面我們討論了最基礎的平均數、中位數和眾數,但身為一位專業的 AI 應用規劃師,你必須知道在特定場景下,這些常規指標會「失真」!
2025/10/31
身為一位 AI 應用規劃師,你必須先從資料的宏觀角度入手,而集中趨勢測量(Central Tendency)就像是我們找資料的「重心」或「核心位置」。它幫助我們快速回答:「這堆數據,大多集中在哪個水平?」 我們來一起拆解幾個關鍵的集中趨勢測量指標,讓你看完就能秒懂!
2025/10/31
身為一位 AI 應用規劃師,你必須先從資料的宏觀角度入手,而集中趨勢測量(Central Tendency)就像是我們找資料的「重心」或「核心位置」。它幫助我們快速回答:「這堆數據,大多集中在哪個水平?」 我們來一起拆解幾個關鍵的集中趨勢測量指標,讓你看完就能秒懂!
看更多
你可能也想看
Thumbnail
搬家不只添購必需品,更能透過蝦皮分潤計畫賺取零用金!本文分享近期搬家時添購的各種實用好物,包含多功能工作桌、電競椅、氣炸烤箱、收納神器等,並詳述如何透過蝦皮雙 11 活動聰明購物、善用優惠,同時利用分潤機制將敗家行為轉化為被動收入,推薦給想聰明消費又想賺額外收入的你!
Thumbnail
搬家不只添購必需品,更能透過蝦皮分潤計畫賺取零用金!本文分享近期搬家時添購的各種實用好物,包含多功能工作桌、電競椅、氣炸烤箱、收納神器等,並詳述如何透過蝦皮雙 11 活動聰明購物、善用優惠,同時利用分潤機制將敗家行為轉化為被動收入,推薦給想聰明消費又想賺額外收入的你!
Thumbnail
貓奴每月進貢的時間又來啦! 身為專業貢品官,我從蝦皮搜尋各種零食,只為取悅家中三位貓主子!結果究竟會是龍心大悅,亦或是冷眼相待,就讓我們繼續看下去~
Thumbnail
貓奴每月進貢的時間又來啦! 身為專業貢品官,我從蝦皮搜尋各種零食,只為取悅家中三位貓主子!結果究竟會是龍心大悅,亦或是冷眼相待,就讓我們繼續看下去~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
深度學習比分數高低更重要。 以國中、小數學來說,我們現在已經拿掉很多內容,如果還沒辦法將單元中的觀念落實並生根,就很難銜接上去。 舉個簡單例子:小學二年級開始學看時鐘,三年級就要弄懂12小時制、24小時制(時間、時刻的差異),四年級學時間的運算;這只要有一個環節不OK,就卡死了。
Thumbnail
深度學習比分數高低更重要。 以國中、小數學來說,我們現在已經拿掉很多內容,如果還沒辦法將單元中的觀念落實並生根,就很難銜接上去。 舉個簡單例子:小學二年級開始學看時鐘,三年級就要弄懂12小時制、24小時制(時間、時刻的差異),四年級學時間的運算;這只要有一個環節不OK,就卡死了。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
這本書的起源來自於疫情期間,作者以數學家的角度,在網路上發表文章,幫大眾解讀疫情的統計數字是什麼意思,我看完這本書以後不禁感嘆,如果我更早理解這些概念就好了。
Thumbnail
這本書的起源來自於疫情期間,作者以數學家的角度,在網路上發表文章,幫大眾解讀疫情的統計數字是什麼意思,我看完這本書以後不禁感嘆,如果我更早理解這些概念就好了。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
今天來講:統計模擬研究的入門文章。(2023-08-23)
Thumbnail
今天來講:統計模擬研究的入門文章。(2023-08-23)
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News