雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
一旦有了平均數,就可以得到每一個數值和平均數之間的距離。而標準差的概念,就是把所有的距離平均給每一個數值。
所以標準差的概念其實是:平均來說,每一個數值和平均值之間的距離有多遠?的意思。因此在「藍色線段的總長度不變」的前提下,如果每個人都要跟平均數之間有相等的距離,那個距離就是標準差囉!
或者我們換一種說法,當維持藍色線段總長度不變,要將所有數值跟平均數排成一排,同時維持每個數值之間的間隔距離相等(黃志勝,2021)。這段文字有點難理解,看下面的圖應該會好懂很多:
好了,標準差的概念就是這樣,其實也不難對吧。不過這只是概念上為了方便解釋才這樣說,實際上並不是這樣做計算的喔!往下看就會知道其實有兩種表達分散程度的數值都是用這樣的概念。
接下來會提到標準差是要怎麼計算出來,同時也會提到什麼是變異數。變異數在某個程度上比標準差還要重要得多。
雖然我也不喜歡講公式,但還是要寫一下標準差的數學式是什麼。不過不用擔心,接下來會轉換成用白話文來解釋它。以下就是標準差的計算方式:
我會分成三個步驟來理解這個式子。
首先是分子的部分,意思是要把每個數值和平均數之間的距離做平方,然後通通加起來。
接著把這個數值除以數值的數目 (n)。到這步為止,我們得到的數值叫做變異數 (variance)。是的,變異數就是標準差的平方。
然後開更號,就會得到標準差了。
不過這其實是計算步驟,還談不上理解這個公式。在真的解釋這個公式之前,可以先想一下從上面的「概念上」看起來,這公式應該跟預期不太一樣。
上面說概念上而言,標準差就是把所有數值跟平均數的距離做平均。那我們應該預期標準差的公式要取絕對值才對,也就是下面這樣:
確實這樣也可以表示數值的分散程度,而這個公式算出來的東西不叫標準差,叫做平均差(mean deviation)。只不過這樣的做法對於比較極端的數值比較不敏感(邱皓政、林碧芳,2017)。也就是說,當數據中存在比較極端的數值時,平均差對於離散程度的估計比標準差更為保守。在統計上為了凸顯出極端值的影響力,就採用平方而不是取絕對值的方式來計算標準差。
為什麼取平方會對極端值比較敏感呢?因為極端值距離平均數比較遠,取平方的話就代表它也要乘以自己──換句話說,越極端的數值就會乘以一個越大的數值,那麼這個數值對於總和的貢獻也就更大了。
接下來就真的要好好理解變異數和標準差代表什麼了,首先會用面積的概念來理解他們。
在算出平均數之後,每個數值都會跟平均之間產生一個距離,在下圖當中以藍色線段表示。
也就是標準差公式當中的這個部分,以後會用「離均差」來稱呼這東西,因為這公式的意思就是距離平均差了多遠。
現在我們把這些藍色線段拿出來排列一下,變成下圖的樣子。
根據標準差的公式,我們要把每一個離均差都平方起來之後相加。那麼把線段平方會變成什麼樣呢?答案是...砰,會長出一個正方形的面積。
每一個正方形就被稱為變異,也就是拿每個數和平均數的距離,圍成一個正方形,就會形成該數值的變異程度。
把這些個別的正方形全部加起來,就會形成所謂的總變異(也就是全體變異),又被稱為離均差(的)平方和 (sum of square,簡稱SS)。把這個總變異平均分給每個數值,就會得到平均變異(又稱為均方,mean of square),也就是大名鼎鼎的變異數。
而這個平均變異的邊長就是我們所謂的標準差囉!所以把變異數開更號之後就會得到標準差。
從以上的步驟可以看出來,標準差的真正計算方式,是將總變異做平均,而不是像平均差那樣直接將線段總長度做平均。
還記得以前初學這些東西的時候,算法倒不是大問題,真正的大問題是這些(該死的) 亂七八糟的名詞搞得暈頭轉向。有時候一個統計量有好幾個名詞,有時候不同的統計量名字看起來又很像。
這裡就稍微做點小整理吧:
這些名詞實在有夠複雜,但未來它們都還是會不斷出現,所以似乎不能隨便跳過它們。特別在變異數分析中,總變異、變異數都會是非常重要的概念。
說實在的,變異數跟標準差實際計算起來是很容易的,只是要理解它們的概念比較複雜一點,也寫得比較長了一些。
雖然通常來說都會用面積來理解變異數與標準差,但其實也可以用多維空間的方式來理解兩者之間的關係。只不過這比較需要一些對向量空間的基本認識,本篇就不多提了,但會補充在下一篇文章中。
邱皓政、林碧芳(2017):統計學:原理與應用(三版)。五南出版。
黃志勝(2021):機器學習的統計基礎。旗標科技股份有限公司。