統計急救箱─樣本變異數與標準差

閱讀時間約 6 分鐘

  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。

標準差的概念

  一旦有了平均數,就可以得到每一個數值和平均數之間的距離。而標準差的概念,就是把所有的距離平均給每一個數值。

圖一、標準差的概念是與平均數距離的平均

圖一、標準差的概念是與平均數距離的平均

所以標準差的概念其實是:平均來說,每一個數值和平均值之間的距離有多遠?的意思。因此在「藍色線段的總長度不變」的前提下,如果每個人都要跟平均數之間有相等的距離,那個距離就是標準差囉!

圖二、每個人都和平均數有相等的距離

圖二、每個人都和平均數有相等的距離

或者我們換一種說法,當維持藍色線段總長度不變,要將所有數值跟平均數排成一排,同時維持每個數值之間的間隔距離相等(黃志勝,2021)。這段文字有點難理解,看下面的圖應該會好懂很多:

圖三、連同平均一起排成一排,每個數之間的間隔要相等

圖三、連同平均一起排成一排,每個數之間的間隔要相等

  好了,標準差的概念就是這樣,其實也不難對吧。不過這只是概念上為了方便解釋才這樣說,實際上並不是這樣做計算的喔!往下看就會知道其實有兩種表達分散程度的數值都是用這樣的概念。

  接下來會提到標準差是要怎麼計算出來,同時也會提到什麼是變異數。變異數在某個程度上比標準差還要重要得多。


標準差的計算方式

  雖然我也不喜歡講公式,但還是要寫一下標準差的數學式是什麼。不過不用擔心,接下來會轉換成用白話文來解釋它。以下就是標準差的計算方式:

公式一、標準差的數學公式

公式一、標準差的數學公式

  我會分成三個步驟來理解這個式子。

  首先是分子的部分,意思是要把每個數值和平均數之間的距離做平方,然後通通加起來。

  接著把這個數值除以數值的數目 (n)。到這步為止,我們得到的數值叫做變異數 (variance)。是的,變異數就是標準差的平方。

  然後開更號,就會得到標準差了。

  不過這其實是計算步驟,還談不上理解這個公式。在真的解釋這個公式之前,可以先想一下從上面的「概念上」看起來,這公式應該跟預期不太一樣。

  上面說概念上而言,標準差就是把所有數值跟平均數的距離做平均。那我們應該預期標準差的公式要取絕對值才對,也就是下面這樣:

公式二、這東西有另一個名字,叫做平均差 (MD)

公式二、這東西有另一個名字,叫做平均差 (MD)

確實這樣也可以表示數值的分散程度,而這個公式算出來的東西不叫標準差,叫做平均差(mean deviation)。只不過這樣的做法對於比較極端的數值比較不敏感(邱皓政、林碧芳,2017)。也就是說,當數據中存在比較極端的數值時,平均差對於離散程度的估計比標準差更為保守。在統計上為了凸顯出極端值的影響力,就採用平方而不是取絕對值的方式來計算標準差。

  為什麼取平方會對極端值比較敏感呢?因為極端值距離平均數比較遠,取平方的話就代表它也要乘以自己──換句話說,越極端的數值就會乘以一個越大的數值,那麼這個數值對於總和的貢獻也就更大了。


理解變異數與標準差──面積的觀點

  接下來就真的要好好理解變異數和標準差代表什麼了,首先會用面積的概念來理解他們。

  在算出平均數之後,每個數值都會跟平均之間產生一個距離,在下圖當中以藍色線段表示。

圖四、藍色線段為每個數值和平均數之間的距離

圖四、藍色線段為每個數值和平均數之間的距離

也就是標準差公式當中的這個部分,以後會用「離均差」來稱呼這東西,因為這公式的意思就是距均差了多遠。

公式三、離均差就是上圖當中的藍色線段

公式三、離均差就是上圖當中的藍色線段

現在我們把這些藍色線段拿出來排列一下,變成下圖的樣子。

圖五、每個數值都有一個離均差,這是一個距離

圖五、每個數值都有一個離均差,這是一個距離

根據標準差的公式,我們要把每一個離均差都平方起來之後相加。那麼把線段平方會變成什麼樣呢?答案是...砰,會長出一個正方形的面積。

圖六、離均差的平方,就是所謂的變異

圖六、離均差的平方,就是所謂的變異

  每一個正方形就被稱為變異,也就是拿每個數和平均數的距離,圍成一個正方形,就會形成該數值的變異程度。

  把這些個別的正方形全部加起來,就會形成所謂的總變異(也就是全體變異),又被稱為離均差(的)平方和 (sum of square,簡稱SS)。把這個總變異平均分給每個數值,就會得到平均變異(又稱為均方,mean of square),也就是大名鼎鼎的變異數

圖七、把總變異平均之後會得到所謂的均方

圖七、把總變異平均之後會得到所謂的均方

  而這個平均變異的邊長就是我們所謂的標準差囉!所以把變異數開更號之後就會得到標準差。

圖八、變異數是正方形面積,而標準差就是它的邊長

圖八、變異數是正方形面積,而標準差就是它的邊長

  從以上的步驟可以看出來,標準差的真正計算方式,是將總變異做平均,而不是像平均差那樣直接將線段總長度做平均。


我們來做一點名詞整理

  還記得以前初學這些東西的時候,算法倒不是大問題,真正的大問題是這些(該死的) 亂七八糟的名詞搞得暈頭轉向。有時候一個統計量有好幾個名詞,有時候不同的統計量名字看起來又很像。

  這裡就稍微做點小整理吧:

  1. 離均差:每個數值和平均數之間的距離,也就是圖四當中的藍色線段。
  2. 平均差 (mean deviation, MD):把每個數值的離均差絕對值平均起來,也就是把圖四當中所有藍色線段長度平均起來,變成類似圖二那樣子。
  3. 離均差平方:將每個數值的離均差取平方,也就是從圖五的線段變成圖六的方形面積。
  4. 離均差平方和:又稱為總變異 (sum of square, SS)。把第3點的離均差平方全部加起來,也就是把圖六的每個方形面積加起來,變成一個很大的長方形面積 (圖七左)。離均差平方和也是公式一當中,更號內的分子部分。
  5. 變異數 (variance):又稱為均方 (mean of square, MS),在中國大陸會稱為方差。將離均差平方和均分給每個樣本,圖七右方的小正方形就是變異數。一般來說,變異數比均方這個名詞更常被使用。
  6. 標準差 (standard deviation):將變異數開更號之後的數值,在圖八當中可以知道如果變異數是面積,標準差就是邊長。

  

  這些名詞實在有夠複雜,但未來它們都還是會不斷出現,所以似乎不能隨便跳過它們。特別在變異數分析中,總變異、變異數都會是非常重要的概念。



  說實在的,變異數跟標準差實際計算起來是很容易的,只是要理解它們的概念比較複雜一點,也寫得比較長了一些。

  雖然通常來說都會用面積來理解變異數與標準差,但其實也可以用多維空間的方式來理解兩者之間的關係。只不過這比較需要一些對向量空間的基本認識,本篇就不多提了,但會補充在下一篇文章中。





參考書目:

邱皓政、林碧芳(2017):統計學:原理與應用(三版)。五南出版。

黃志勝(2021):機器學習的統計基礎。旗標科技股份有限公司。


avatar-img
52會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
  在回答過關於統計的問題裡面,有許多問題真正的癥結點其實不在統計能力上。所以就先從一些前情提要的觀念開始寫吧~   先搞懂統計才能做研究?量化與質化研究是什麼?顯著就是一切嗎?數學要很好才能學統計?這篇文章裡面都有討論。
最開始的想法其實只是想寫點筆記。 碩士畢業之後,隨著大數據的風潮而開始認真學起了統計學,過程中逐漸也弄懂了不少以前一知半解的事情。時常有著「當時要是有人告訴我這些就好了啊~」的感嘆,很怕自己沒寫下來就忘了,所以想記錄起來。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
  在回答過關於統計的問題裡面,有許多問題真正的癥結點其實不在統計能力上。所以就先從一些前情提要的觀念開始寫吧~   先搞懂統計才能做研究?量化與質化研究是什麼?顯著就是一切嗎?數學要很好才能學統計?這篇文章裡面都有討論。
最開始的想法其實只是想寫點筆記。 碩士畢業之後,隨著大數據的風潮而開始認真學起了統計學,過程中逐漸也弄懂了不少以前一知半解的事情。時常有著「當時要是有人告訴我這些就好了啊~」的感嘆,很怕自己沒寫下來就忘了,所以想記錄起來。
你可能也想看
Google News 追蹤
  今天來閒聊一下標準這件事。由於這裡畢竟是個以小說為主的網站,因此本篇就聚焦在寫作與閱讀這兩方面來討論。   「標準」這個東西其實是最不標準的了,每個人都有自己的標準,會受到喜好、興趣、環境等等的影響而有所不同,而且別說人與人之間,就連同一個人,在不同的時間或人生階段,對同一件事都可能會有不同的
Thumbnail
題目敘述 Longest Arithmetic Subsequence of Given Difference 給定一個整數陣列nums,請找出給定公差difference的最長的等差數列的長度是多少?
Thumbnail
這一節的標題是0.4 A Normal Distribution of Random Numbers,介紹常態分布的基本概念,以及相關亂數產生器的使用方法與應用方式。
Thumbnail
技術指標源自統計學原理,反映市場變化的概率分佈,而非預測工具。本文了解指標背後邏輯有利活學活用,甚至自行改良創新。
Thumbnail
有學過統計的人都知道,所謂的平均有許多不同的定義,我們今天要來學習在金融財務當中常見的平均方法。 這些平均方式可能是用在績效的結果,也可能是用在分析財務報表。 這些統計有時候差之毫釐、失之千里,我們在理解不同的統計分析跟看其結果時,不可不慎。 本篇文章簡單介紹5種平均數
Thumbnail
「世上本來就沒有單一普世的絕對標準,反而有著一堆是非對錯的爭論,甚至到最終都沒有標準答案;但在這些思辨與實踐的過程中,更多元的空間也因此被打開,更多的人就可能因此受惠。每個人都有自己的心智模式,為我們做出資訊的決定、行動,沒有絕對的好跟壞,都是依據個人經驗與狀況長出..... 」我們的社會是個集體意
什麼叫均值回歸,要如何搭配股市操作,可以參考作者的方法。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
  今天來閒聊一下標準這件事。由於這裡畢竟是個以小說為主的網站,因此本篇就聚焦在寫作與閱讀這兩方面來討論。   「標準」這個東西其實是最不標準的了,每個人都有自己的標準,會受到喜好、興趣、環境等等的影響而有所不同,而且別說人與人之間,就連同一個人,在不同的時間或人生階段,對同一件事都可能會有不同的
Thumbnail
題目敘述 Longest Arithmetic Subsequence of Given Difference 給定一個整數陣列nums,請找出給定公差difference的最長的等差數列的長度是多少?
Thumbnail
這一節的標題是0.4 A Normal Distribution of Random Numbers,介紹常態分布的基本概念,以及相關亂數產生器的使用方法與應用方式。
Thumbnail
技術指標源自統計學原理,反映市場變化的概率分佈,而非預測工具。本文了解指標背後邏輯有利活學活用,甚至自行改良創新。
Thumbnail
有學過統計的人都知道,所謂的平均有許多不同的定義,我們今天要來學習在金融財務當中常見的平均方法。 這些平均方式可能是用在績效的結果,也可能是用在分析財務報表。 這些統計有時候差之毫釐、失之千里,我們在理解不同的統計分析跟看其結果時,不可不慎。 本篇文章簡單介紹5種平均數
Thumbnail
「世上本來就沒有單一普世的絕對標準,反而有著一堆是非對錯的爭論,甚至到最終都沒有標準答案;但在這些思辨與實踐的過程中,更多元的空間也因此被打開,更多的人就可能因此受惠。每個人都有自己的心智模式,為我們做出資訊的決定、行動,沒有絕對的好跟壞,都是依據個人經驗與狀況長出..... 」我們的社會是個集體意
什麼叫均值回歸,要如何搭配股市操作,可以參考作者的方法。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的