統計急救箱─樣本變異數與標準差

2023/07/30閱讀時間約 6 分鐘

  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。

標準差的概念

  一旦有了平均數,就可以得到每一個數值和平均數之間的距離。而標準差的概念,就是把所有的距離平均給每一個數值。

圖一、標準差的概念是與平均數距離的平均

圖一、標準差的概念是與平均數距離的平均

所以標準差的概念其實是:平均來說,每一個數值和平均值之間的距離有多遠?的意思。因此在「藍色線段的總長度不變」的前提下,如果每個人都要跟平均數之間有相等的距離,那個距離就是標準差囉!

圖二、每個人都和平均數有相等的距離

圖二、每個人都和平均數有相等的距離

或者我們換一種說法,當維持藍色線段總長度不變,要將所有數值跟平均數排成一排,同時維持每個數值之間的間隔距離相等(黃志勝,2021)。這段文字有點難理解,看下面的圖應該會好懂很多:

圖三、連同平均一起排成一排,每個數之間的間隔要相等

圖三、連同平均一起排成一排,每個數之間的間隔要相等

  好了,標準差的概念就是這樣,其實也不難對吧。不過這只是概念上為了方便解釋才這樣說,實際上並不是這樣做計算的喔!往下看就會知道其實有兩種表達分散程度的數值都是用這樣的概念。

  接下來會提到標準差是要怎麼計算出來,同時也會提到什麼是變異數。變異數在某個程度上比標準差還要重要得多。


標準差的計算方式

  雖然我也不喜歡講公式,但還是要寫一下標準差的數學式是什麼。不過不用擔心,接下來會轉換成用白話文來解釋它。以下就是標準差的計算方式:

公式一、標準差的數學公式

公式一、標準差的數學公式

  我會分成三個步驟來理解這個式子。

  首先是分子的部分,意思是要把每個數值和平均數之間的距離做平方,然後通通加起來。

  接著把這個數值除以數值的數目 (n)。到這步為止,我們得到的數值叫做變異數 (variance)。是的,變異數就是標準差的平方。

  然後開更號,就會得到標準差了。

  不過這其實是計算步驟,還談不上理解這個公式。在真的解釋這個公式之前,可以先想一下從上面的「概念上」看起來,這公式應該跟預期不太一樣。

  上面說概念上而言,標準差就是把所有數值跟平均數的距離做平均。那我們應該預期標準差的公式要取絕對值才對,也就是下面這樣:

公式二、這東西有另一個名字,叫做平均差 (MD)

公式二、這東西有另一個名字,叫做平均差 (MD)

確實這樣也可以表示數值的分散程度,而這個公式算出來的東西不叫標準差,叫做平均差(mean deviation)。只不過這樣的做法對於比較極端的數值比較不敏感(邱皓政、林碧芳,2017)。也就是說,當數據中存在比較極端的數值時,平均差對於離散程度的估計比標準差更為保守。在統計上為了凸顯出極端值的影響力,就採用平方而不是取絕對值的方式來計算標準差。

  為什麼取平方會對極端值比較敏感呢?因為極端值距離平均數比較遠,取平方的話就代表它也要乘以自己──換句話說,越極端的數值就會乘以一個越大的數值,那麼這個數值對於總和的貢獻也就更大了。


理解變異數與標準差──面積的觀點

  接下來就真的要好好理解變異數和標準差代表什麼了,首先會用面積的概念來理解他們。

  在算出平均數之後,每個數值都會跟平均之間產生一個距離,在下圖當中以藍色線段表示。

圖四、藍色線段為每個數值和平均數之間的距離

圖四、藍色線段為每個數值和平均數之間的距離

也就是標準差公式當中的這個部分,以後會用「離均差」來稱呼這東西,因為這公式的意思就是距均差了多遠。

公式三、離均差就是上圖當中的藍色線段

公式三、離均差就是上圖當中的藍色線段

現在我們把這些藍色線段拿出來排列一下,變成下圖的樣子。

圖五、每個數值都有一個離均差,這是一個距離

圖五、每個數值都有一個離均差,這是一個距離

根據標準差的公式,我們要把每一個離均差都平方起來之後相加。那麼把線段平方會變成什麼樣呢?答案是...砰,會長出一個正方形的面積。

圖六、離均差的平方,就是所謂的變異

圖六、離均差的平方,就是所謂的變異

  每一個正方形就被稱為變異,也就是拿每個數和平均數的距離,圍成一個正方形,就會形成該數值的變異程度。

  把這些個別的正方形全部加起來,就會形成所謂的總變異(也就是全體變異),又被稱為離均差(的)平方和 (sum of square,簡稱SS)。把這個總變異平均分給每個數值,就會得到平均變異(又稱為均方,mean of square),也就是大名鼎鼎的變異數

圖七、把總變異平均之後會得到所謂的均方

圖七、把總變異平均之後會得到所謂的均方

  而這個平均變異的邊長就是我們所謂的標準差囉!所以把變異數開更號之後就會得到標準差。

圖八、變異數是正方形面積,而標準差就是它的邊長

圖八、變異數是正方形面積,而標準差就是它的邊長

  從以上的步驟可以看出來,標準差的真正計算方式,是將總變異做平均,而不是像平均差那樣直接將線段總長度做平均。


我們來做一點名詞整理

  還記得以前初學這些東西的時候,算法倒不是大問題,真正的大問題是這些(該死的) 亂七八糟的名詞搞得暈頭轉向。有時候一個統計量有好幾個名詞,有時候不同的統計量名字看起來又很像。

  這裡就稍微做點小整理吧:

  1. 離均差:每個數值和平均數之間的距離,也就是圖四當中的藍色線段。
  2. 平均差 (mean deviation, MD):把每個數值的離均差絕對值平均起來,也就是把圖四當中所有藍色線段長度平均起來,變成類似圖二那樣子。
  3. 離均差平方:將每個數值的離均差取平方,也就是從圖五的線段變成圖六的方形面積。
  4. 離均差平方和:又稱為總變異 (sum of square, SS)。把第3點的離均差平方全部加起來,也就是把圖六的每個方形面積加起來,變成一個很大的長方形面積 (圖七左)。離均差平方和也是公式一當中,更號內的分子部分。
  5. 變異數 (variance):又稱為均方 (mean of square, MS),在中國大陸會稱為方差。將離均差平方和均分給每個樣本,圖七右方的小正方形就是變異數。一般來說,變異數比均方這個名詞更常被使用。
  6. 標準差 (standard deviation):將變異數開更號之後的數值,在圖八當中可以知道如果變異數是面積,標準差就是邊長。

  

  這些名詞實在有夠複雜,但未來它們都還是會不斷出現,所以似乎不能隨便跳過它們。特別在變異數分析中,總變異、變異數都會是非常重要的概念。



  說實在的,變異數跟標準差實際計算起來是很容易的,只是要理解它們的概念比較複雜一點,也寫得比較長了一些。

  雖然通常來說都會用面積來理解變異數與標準差,但其實也可以用多維空間的方式來理解兩者之間的關係。只不過這比較需要一些對向量空間的基本認識,本篇就不多提了,但會補充在下一篇文章中。





參考書目:

邱皓政、林碧芳(2017):統計學:原理與應用(三版)。五南出版。

黃志勝(2021):機器學習的統計基礎。旗標科技股份有限公司。


19會員
26內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
發表第一個留言支持創作者!