在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
在統計急救箱──抽樣分布與中央極限定理(一)用抽球的方式介紹了什麼是抽樣分布,前前後後總共抽了三次的球,形成了三個不同的抽樣分布。這三次抽球的過程基本上是一模一樣的,唯一的變化只有每次抽出的球數目不同。在文章的最後也提到抽樣分布的改變條件,就是每次抽樣的樣本數。
在上次的抽球活動裡面,黑色大袋子中總共只有10顆球,其中五顆是0分,五顆是1分。現在我們再加入五顆1分球與五顆0分球,因此袋子裡面總共有20顆球,其中十顆是1分,另外十顆是0分球。
接著我們繼續增加每次抽球的數量。上次最後只示範到每次抽出4顆球為止,那假如現在我們每次要抽出5顆球、8顆球、10顆球或者12顆球呢?當每次抽球的數量超過5,要用手動的方式來列出每一種可能組合就會越來越痛苦。當超過10之後幾乎可以說是辦不到了(不過如果你想找一種考驗耐心、邏輯和細心的活動,我倒是認為這很適合),所以通常都會用公式的方式直接進行計算。不過統計急救箱的目標不是介紹二項分布的通式,我們只需要看看會產生怎樣的圖形就好。
從上圖可以發現一件有趣的事情,就是當抽出來的樣本數目越多,抽樣分布的「樣子」其實就會慢慢變得穩定。也就是說,當每次抽球活動中抽出的球越多,即使我們再繼續增加每次抽出球的數目,最後的抽樣分布的「樣貌」都不太會改變了。統計學家們發現,當抽出的球超過一定的數目之後,抽樣分布就會形成一種特殊的分布樣貌,這就是大名鼎鼎的常態分布啦~
現在來回想一下這個過程是怎麼發生的。
首先我們有一個黑色的大袋子,裡面有一堆球。我們從這個袋子裡面每一次抽出n個球,計算這n個球的平均數有多少種可能,以及所有可能出現的樣本組合。將這些可能的樣本組合畫成次數分配圖後,就會得到抽樣分布圖。
如果用統計學的名詞來描述這個過程,就是我們從一個母體裡面進行樣本數為n的抽樣,計算這n個樣本的平均數,並將獲得各種平均分數的機率繪製成圖(因此橫軸是平均數,縱軸是機率或頻率)。當樣本數量越大的時候,這個機率分布圖會越往常態分布靠近(統計上稱為收斂於常態)。
上面這個過程,就是大名鼎鼎的中央極限定理了。這也是為什麼上一篇要特別區分母體分布、樣本分布和抽樣分布三個名詞的原因,因為最後會成為常態的是抽樣分布,而母體分布即使不是常態也沒有關係。如同上面的那個大塑膠袋,裡面的母體分布是均勻的分布(0分球和1分球各一半,完全沒有常態),由此可知即使母體沒有常態,最後抽樣分布都還是會趨向常態的。
那麼知道抽樣分布是常態的,對我們推論母體又能夠有什麼幫助?這就是下一篇要討論的問題了。
百忙之中抽空去了G eight電玩展,真希望可以有時間好好寫心得Q_Q
本文所用圖片當中的素材來自於https://www.flaticon.com,由juicy_fish創作。