依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分布,那麼這件事情到底為什麼很重要呢?
這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
常態分布圖雖然看起來滿簡潔,但還是要了解一下橫軸和縱軸分別代表什麼。根據前面抽樣的過程,我們可以知道常態分布可以說一種次數分配圖。橫軸是每次抽樣後算出的樣本平均數,而縱軸則是有多少種可能的樣本組合可以得到這個平均數。如果忘記的話,可以回到統計急救箱──抽樣分布與中央極限定理(一)去複習一下喔。
也可以說,常態分布是一群數值由小到大排出的次數分配圖,這群數字的值就是橫軸上的數字,常態分布曲線則是把他們的次數頂點連接起來後得到的樣子。那為什麼下圖中會說縱軸也可以當作是發生機率呢?這個在這篇文章的後半部分就會提到囉。
常態分布的第一個特性,就是整體分布的平均數位於正中間,也就是像山峰的那個位置。以下圖為例,我們會說這是一個平均數在0.5的常態分布圖形。而且常態分布必然是左右對稱的。不過這部分有個小小的邏輯需要注意,就是雖然「常態分布 → 對稱分布」這件事情成立,但反過來說任何對稱分布都是常態的就不成立囉!最明顯的反例就是均勻分布也可以是對稱的,但樣子跟常態分布差很遠。另一個反例就是未來會介紹到的t分布,雖然也長得很對稱,但並不等於常態分布。
常態分布的第二個特性其實也可以說是第一個特性的延伸,就是呈現常態分布的一群數值,他們的平均數、中位數以及眾數都會是同一個數值。以下圖的分布來說,三個數值通通都是0.5。
要快速從這樣的分布圖當中判斷中位數和眾數也是滿容易的。中位數是指一群數值由小排到大後,取其正中間的數值(若數值總數為偶數,則取中間兩數值的平均)。對應到圖上來看,其實就是橫軸的正中間那個點。而眾數則是指一群數值裡面出現最多次的那個數字,以分布圖上來說,就是最高點的位置對應到的X軸數值囉。
雖然常態分布的平均數、中位數和眾數會重疊,但實務上的資料其實很難看到完美的常態分布,因此絕大多數拿到手的資料平均數和中位數都會是不同的數字,通常會仰賴額外計算的峰度與偏態值來確認資料偏離常態分布多嚴重。
常態分布的第三個特性就非常重要了,因為這會與後續的推論統計原理有關。那就是只要知道母體分布的平均數和標準差,就能夠計算出整群數值中任何一個值的發生機率。換個方式說就是,要畫出一個常態分布的曲線(藍色的曲線),我們會需要知道這整群數值的平均數以及標準差。而只要能夠畫出這條藍色的曲線,我們就有辦法算出X軸上每個數值的發生機率是多高。[*1]
這是因為常態分布曲線的函數公式是固定的,可以參考維基百科上面的機率密度函數。如果你願意仔細觀察這個看起來很可怕的公式,其實可以發現這整個公式裡面只有兩個東西是我們不知道的,一個是平均數mu,另一個就是標準差sigma(其他看起來醜醜的數學符號pi指的是圓周率,可以當作是已知數;e是尤拉數,也是一個已知數)。
換個角度說,先不管常態分布公式長成怎樣,如果今天看到下面這樣的一個公式,然後問:如果我有一群x值,把這些x代入到下方公式中,應該也可以得到一群y值。不過要得到y值,就需要先知道mu和sigma (最後兩個符號) 是多少才行(pi是圓周率,所以其實也是個已知數;那個2.72其實就是常態分布裡的e值進位後的結果)。一旦我們知道了,就可以輕鬆在座標圖上面畫出下面的這條直線囉。其實常態分布的公式也差不多就是這個意思,只是裡面又開了更號又寫上指數讓整個公式超級複雜,但仔細看看就會發現未知數還是只有兩個。
如果看公式就是讓人頭痛,沒關係,關於常態分布有一個懶人包:要繪製出常態分布的曲線,我們需要整群數值的平均數,這樣才能知道中心點在哪裡。我們也需要知道整群數值的標準差,這樣我們才會知道常態分布要畫多寬。
最後可以來更深入的了解一下怎麼將常態分布圖解讀為「值的發生機率」。我們以每次從母體當中抽取4顆球來當例子,會發現製作出抽樣分布的次數分配表後,總共會有16種組合,繪製成圖的話就會有16個點。接著只要計算每一個平均數欄位下面有幾種組合,就可以算出抽樣後得到該平均數的機率。
例如我要計算抽樣後得到樣本平均為0.25的機率,那就是16種組合當中有4種組合,也就是4/16 = 1/4的機會。
由此可以整理出計算出特定抽樣平均數的方法:
由此計算出的數值,就會是得到特定平均數的機率。
上面的這個算法,其實概念上就是對常態分布曲線上的特定點進行積分運算。積分聽起來是很高級的數學吧?但用很簡單的方式解釋,其實就是在求常態曲線和x軸之間的面積。於是在很多的統計課本中解釋常態分布和機率的關係,就會出現如同下面這張圖:
這就是用面積的方式來表示機率,這種圖就被叫做機率密度圖 (Probability density graph),這也是為什麼常態分布的函數公式又被叫做常態分布的機率密度函數。
剛開始的時候會覺得有點難理解,我們現在可以用上面這張圖來重新想一次機率的計算過程。
在0的左右兩側各有一個深藍色的區塊,每個區塊裡面寫著34.1%,其對應的x軸區間是-1個標準差到0之間的範圍。如果根據上面說的計算方式,我要怎麼計算這個區間呢?同樣要把分子跟分母分開來計算。
最後將分子除以分母,就會得到34.1%這個數值囉![*2]
所以這個區間上面寫34.1%的意思就是說:在所有的x值當中(整個橫軸當中)隨機抽取一個值的話,有34.1%的機率會得到-1個標準差到0之間的數值(也就是左側深藍色區塊的底邊)。
這就是利用常態分配圖來推估機率的方法。幸運的是我們不用每一次都要花心力去計算分子和分母,以前的統計學家早就幫我們算好啦!就是上面這張圖表示的樣子。快速記憶法是:
而這些機率就會成為統計檢定的基礎。
如果上面那些積分啊、面積啊什麼的看不懂也沒關係,那超級懶人包就是:常態分布曲線的y軸可以「暫時」當成是x值發生的機率就好了(前面說是次數,其實也是相同的意思),因為概念上是一樣的 [*3]。
這篇的內容似乎比較困難,是不是該分成兩篇比較好呢...
[*1]: 其實說每一點的機率並不完全正確,因為x軸上有無數個點,真正選取到某個點的機率就是無限分之一,也就是幾乎是0。所以如果想要講究一點,這個說法真正的意思是計算每個點到下一個點之間的區間機率...不過這樣講就太深奧了,所以「概念上」當作可以算出每一個點的機率就可以了。
[*2]: 嚴格來說我們是不可能真的去計算分子和分母的,因為我們擷取的是一個線段,上面有無限個點,所以這必然要用積分去計算。不過概念上來說就是把線上面的每個值都加起來的意思。
[*3]: 請注意這裡強調「概念上」類似於機率,但y軸真正的名字是likelihood,有人翻譯為概似性。likelihood跟機率雖然在概念上相似,不過在機率論的領域裡面是不一樣的意義,此處不會詳談。對於初學統計的人而言,最大的差別在於likelihood的數值實際上可以超過1,也就是如果哪天你看到常態分布圖的縱軸大於1也不用太意外,那不是畫錯。然而,機率 (probability) 是不可能會大於1的。
本文所用圖片當中的素材來自於https://www.flaticon.com,由juicy_fish創作。