統計急救箱─樣本變異數與標準差

更新於 發佈於 閱讀時間約 6 分鐘

  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。

標準差的概念

  一旦有了平均數,就可以得到每一個數值和平均數之間的距離。而標準差的概念,就是把所有的距離平均給每一個數值。

圖一、標準差的概念是與平均數距離的平均

圖一、標準差的概念是與平均數距離的平均

所以標準差的概念其實是:平均來說,每一個數值和平均值之間的距離有多遠?的意思。因此在「藍色線段的總長度不變」的前提下,如果每個人都要跟平均數之間有相等的距離,那個距離就是標準差囉!

圖二、每個人都和平均數有相等的距離

圖二、每個人都和平均數有相等的距離

或者我們換一種說法,當維持藍色線段總長度不變,要將所有數值跟平均數排成一排,同時維持每個數值之間的間隔距離相等(黃志勝,2021)。這段文字有點難理解,看下面的圖應該會好懂很多:

圖三、連同平均一起排成一排,每個數之間的間隔要相等

圖三、連同平均一起排成一排,每個數之間的間隔要相等

  好了,標準差的概念就是這樣,其實也不難對吧。不過這只是概念上為了方便解釋才這樣說,實際上並不是這樣做計算的喔!往下看就會知道其實有兩種表達分散程度的數值都是用這樣的概念。

  接下來會提到標準差是要怎麼計算出來,同時也會提到什麼是變異數。變異數在某個程度上比標準差還要重要得多。


標準差的計算方式

  雖然我也不喜歡講公式,但還是要寫一下標準差的數學式是什麼。不過不用擔心,接下來會轉換成用白話文來解釋它。以下就是標準差的計算方式:

公式一、標準差的數學公式

公式一、標準差的數學公式

  我會分成三個步驟來理解這個式子。

  首先是分子的部分,意思是要把每個數值和平均數之間的距離做平方,然後通通加起來。

  接著把這個數值除以數值的數目 (n)。到這步為止,我們得到的數值叫做變異數 (variance)。是的,變異數就是標準差的平方。

  然後開更號,就會得到標準差了。

  不過這其實是計算步驟,還談不上理解這個公式。在真的解釋這個公式之前,可以先想一下從上面的「概念上」看起來,這公式應該跟預期不太一樣。

  上面說概念上而言,標準差就是把所有數值跟平均數的距離做平均。那我們應該預期標準差的公式要取絕對值才對,也就是下面這樣:

公式二、這東西有另一個名字,叫做平均差 (MD)

公式二、這東西有另一個名字,叫做平均差 (MD)

確實這樣也可以表示數值的分散程度,而這個公式算出來的東西不叫標準差,叫做平均差(mean deviation)。只不過這樣的做法對於比較極端的數值比較不敏感(邱皓政、林碧芳,2017)。也就是說,當數據中存在比較極端的數值時,平均差對於離散程度的估計比標準差更為保守。在統計上為了凸顯出極端值的影響力,就採用平方而不是取絕對值的方式來計算標準差。

  為什麼取平方會對極端值比較敏感呢?因為極端值距離平均數比較遠,取平方的話就代表它也要乘以自己──換句話說,越極端的數值就會乘以一個越大的數值,那麼這個數值對於總和的貢獻也就更大了。


理解變異數與標準差──面積的觀點

  接下來就真的要好好理解變異數和標準差代表什麼了,首先會用面積的概念來理解他們。

  在算出平均數之後,每個數值都會跟平均之間產生一個距離,在下圖當中以藍色線段表示。

圖四、藍色線段為每個數值和平均數之間的距離

圖四、藍色線段為每個數值和平均數之間的距離

也就是標準差公式當中的這個部分,以後會用「離均差」來稱呼這東西,因為這公式的意思就是距均差了多遠。

公式三、離均差就是上圖當中的藍色線段

公式三、離均差就是上圖當中的藍色線段

現在我們把這些藍色線段拿出來排列一下,變成下圖的樣子。

圖五、每個數值都有一個離均差,這是一個距離

圖五、每個數值都有一個離均差,這是一個距離

根據標準差的公式,我們要把每一個離均差都平方起來之後相加。那麼把線段平方會變成什麼樣呢?答案是...砰,會長出一個正方形的面積。

圖六、離均差的平方,就是所謂的變異

圖六、離均差的平方,就是所謂的變異

  每一個正方形就被稱為變異,也就是拿每個數和平均數的距離,圍成一個正方形,就會形成該數值的變異程度。

  把這些個別的正方形全部加起來,就會形成所謂的總變異(也就是全體變異),又被稱為離均差(的)平方和 (sum of square,簡稱SS)。把這個總變異平均分給每個數值,就會得到平均變異(又稱為均方,mean of square),也就是大名鼎鼎的變異數

圖七、把總變異平均之後會得到所謂的均方

圖七、把總變異平均之後會得到所謂的均方

  而這個平均變異的邊長就是我們所謂的標準差囉!所以把變異數開更號之後就會得到標準差。

圖八、變異數是正方形面積,而標準差就是它的邊長

圖八、變異數是正方形面積,而標準差就是它的邊長

  從以上的步驟可以看出來,標準差的真正計算方式,是將總變異做平均,而不是像平均差那樣直接將線段總長度做平均。


我們來做一點名詞整理

  還記得以前初學這些東西的時候,算法倒不是大問題,真正的大問題是這些(該死的) 亂七八糟的名詞搞得暈頭轉向。有時候一個統計量有好幾個名詞,有時候不同的統計量名字看起來又很像。

  這裡就稍微做點小整理吧:

  1. 離均差:每個數值和平均數之間的距離,也就是圖四當中的藍色線段。
  2. 平均差 (mean deviation, MD):把每個數值的離均差絕對值平均起來,也就是把圖四當中所有藍色線段長度平均起來,變成類似圖二那樣子。
  3. 離均差平方:將每個數值的離均差取平方,也就是從圖五的線段變成圖六的方形面積。
  4. 離均差平方和:又稱為總變異 (sum of square, SS)。把第3點的離均差平方全部加起來,也就是把圖六的每個方形面積加起來,變成一個很大的長方形面積 (圖七左)。離均差平方和也是公式一當中,更號內的分子部分。
  5. 變異數 (variance):又稱為均方 (mean of square, MS),在中國大陸會稱為方差。將離均差平方和均分給每個樣本,圖七右方的小正方形就是變異數。一般來說,變異數比均方這個名詞更常被使用。
  6. 標準差 (standard deviation):將變異數開更號之後的數值,在圖八當中可以知道如果變異數是面積,標準差就是邊長。

  

  這些名詞實在有夠複雜,但未來它們都還是會不斷出現,所以似乎不能隨便跳過它們。特別在變異數分析中,總變異、變異數都會是非常重要的概念。



  說實在的,變異數跟標準差實際計算起來是很容易的,只是要理解它們的概念比較複雜一點,也寫得比較長了一些。

  雖然通常來說都會用面積來理解變異數與標準差,但其實也可以用多維空間的方式來理解兩者之間的關係。只不過這比較需要一些對向量空間的基本認識,本篇就不多提了,但會補充在下一篇文章中。





參考書目:

邱皓政、林碧芳(2017):統計學:原理與應用(三版)。五南出版。

黃志勝(2021):機器學習的統計基礎。旗標科技股份有限公司。


留言
avatar-img
留言分享你的想法!
ChunWei Huang-avatar-img
2024/07/04
謝謝這篇文章,真的幫到我這個在統計苦海中浮沉的人
Way-avatar-img
發文者
2024/07/04
ChunWei Huang 那真是太好啦~希望你的學習越來越順利 :D
吳興亞-avatar-img
2024/03/18
聽你講完變的超簡單超級感謝🥹
Way-avatar-img
發文者
2024/03/22
吳興亞 很高興對你有幫助😁😁
Way-avatar-img
發文者
2023/09/17
統計急救箱──用共變數描述分數之間的關係(下)提及了這篇文章,趕快過去看看吧!
Way-avatar-img
發文者
2023/08/06
統計急救箱──標準差與變異數(二)提及了這篇文章,趕快過去看看吧!
avatar-img
統計急救箱的沙龍
67會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
2024/12/29
  上回講了獨立樣本t test的運作原理,不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test,以及在什麼條件下可以使用獨立樣本t test?
Thumbnail
2024/12/29
  上回講了獨立樣本t test的運作原理,不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test,以及在什麼條件下可以使用獨立樣本t test?
Thumbnail
2024/12/15
 在實務上,t檢定最常被拿來使用的時機是檢驗兩個群體的(母體)平均數是不是相同。
Thumbnail
2024/12/15
 在實務上,t檢定最常被拿來使用的時機是檢驗兩個群體的(母體)平均數是不是相同。
Thumbnail
2024/10/20
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
Thumbnail
2024/10/20
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
Thumbnail
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
Thumbnail
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
Thumbnail
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
Thumbnail
要觀察一個數值的集合有很多方法,透過這些方法得出數值集合的某些特徵,可以讓我們除了「感覺」外,能有更「理性客觀」的方式來理解這個數值集合的特徵。 眾數:一個集合中出現最多次的那個元素,以此作為一個集合的代表性特徵算是很直覺的作法。但缺點是,以眾數作為一個集合的標籤,我們無法透過眾數得知
Thumbnail
要觀察一個數值的集合有很多方法,透過這些方法得出數值集合的某些特徵,可以讓我們除了「感覺」外,能有更「理性客觀」的方式來理解這個數值集合的特徵。 眾數:一個集合中出現最多次的那個元素,以此作為一個集合的代表性特徵算是很直覺的作法。但缺點是,以眾數作為一個集合的標籤,我們無法透過眾數得知
Thumbnail
皮爾森相關係數 (r) 是衡量線性相關性的最常用方法。它是一個介於 –1 和 1 之間的數值,用於衡量兩個變量之間關係的強度和方向。本文簡介公式解釋和SPSS教學。
Thumbnail
皮爾森相關係數 (r) 是衡量線性相關性的最常用方法。它是一個介於 –1 和 1 之間的數值,用於衡量兩個變量之間關係的強度和方向。本文簡介公式解釋和SPSS教學。
Thumbnail
很多時候我們會聽到,現在股價高檔要留意下修的風險或現在的股價在低檔可以開始進行布局,這時你心中一定會想,股價的高檔或是低檔這些位階,是如何判斷的?這次我將告訴你,我如何透過『相對位階估價法』評估股價的位階,同時我也會告訴你這種『相對位階估價法』的缺點,避免你陷入投資方法的誤區。
Thumbnail
很多時候我們會聽到,現在股價高檔要留意下修的風險或現在的股價在低檔可以開始進行布局,這時你心中一定會想,股價的高檔或是低檔這些位階,是如何判斷的?這次我將告訴你,我如何透過『相對位階估價法』評估股價的位階,同時我也會告訴你這種『相對位階估價法』的缺點,避免你陷入投資方法的誤區。
Thumbnail
別讓統計數字騙了你(How to Lie wish Statistics) 有內建偏差的樣本 抽樣的樣本不足以代表全體,有代表性的樣本,這是指把各種偏差來源都排除的樣本。譬如在街頭或是火車站進行隨機的訪問結果,樣本中會明顯少了總是開車出門的樣本。 受訪者想要給一個會讓訪問員喜歡的答案,在
Thumbnail
別讓統計數字騙了你(How to Lie wish Statistics) 有內建偏差的樣本 抽樣的樣本不足以代表全體,有代表性的樣本,這是指把各種偏差來源都排除的樣本。譬如在街頭或是火車站進行隨機的訪問結果,樣本中會明顯少了總是開車出門的樣本。 受訪者想要給一個會讓訪問員喜歡的答案,在
Thumbnail
BMJ小小統計問題(4):離散程度測量指標 British Medical Journal,英國醫學期刊(簡稱 BMJ),創始於1840年,在醫學研究領域享有盛名。本系列精選BMJ所發行之3百多題Statistical Question,採用中英對照有興趣的朋友們可進行回答。各題都有詳細說明。預計每
Thumbnail
BMJ小小統計問題(4):離散程度測量指標 British Medical Journal,英國醫學期刊(簡稱 BMJ),創始於1840年,在醫學研究領域享有盛名。本系列精選BMJ所發行之3百多題Statistical Question,採用中英對照有興趣的朋友們可進行回答。各題都有詳細說明。預計每
Thumbnail
我們都知道普遍來講身高越高的人體重越重,身高與體重彼此相關,且是呈現正相關。既然彼此相關,有沒有一個測量標準能夠告訴我們它們有多相關?那就是共變異數和相關係數啦!
Thumbnail
我們都知道普遍來講身高越高的人體重越重,身高與體重彼此相關,且是呈現正相關。既然彼此相關,有沒有一個測量標準能夠告訴我們它們有多相關?那就是共變異數和相關係數啦!
Thumbnail
樣本變異數的大小會影響樣本平均數嗎?事實上是會的!在大部分的情況底下,兩者是不獨立的,樣本平均和樣本變異的估值存在某些相關,換句話說,樣本平均的大小會影響樣本變異數的大小
Thumbnail
樣本變異數的大小會影響樣本平均數嗎?事實上是會的!在大部分的情況底下,兩者是不獨立的,樣本平均和樣本變異的估值存在某些相關,換句話說,樣本平均的大小會影響樣本變異數的大小
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News