統計急救箱─抽樣分布與中央極限定理(二)

閱讀時間約 3 分鐘

在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。


隨著樣本數變化的抽樣分布

  在統計急救箱──抽樣分布與中央極限定理(一)用抽球的方式介紹了什麼是抽樣分布,前前後後總共抽了三次的球,形成了三個不同的抽樣分布。這三次抽球的過程基本上是一模一樣的,唯一的變化只有每次抽出的球數目不同。在文章的最後也提到抽樣分布的改變條件,就是每次抽樣的樣本數。


  在上次的抽球活動裡面,黑色大袋子中總共只有10顆球,其中五顆是0分,五顆是1分。現在我們再加入五顆1分球與五顆0分球,因此袋子裡面總共有20顆球,其中十顆是1分,另外十顆是0分球。

  接著我們繼續增加每次抽球的數量。上次最後只示範到每次抽出4顆球為止,那假如現在我們每次要抽出5顆球、8顆球、10顆球或者12顆球呢?當每次抽球的數量超過5,要用手動的方式來列出每一種可能組合就會越來越痛苦。當超過10之後幾乎可以說是辦不到了(不過如果你想找一種考驗耐心、邏輯和細心的活動,我倒是認為這很適合),所以通常都會用公式的方式直接進行計算。不過統計急救箱的目標不是介紹二項分布的通式,我們只需要看看會產生怎樣的圖形就好。

樣本數為4、5、8、10、12時的抽樣分布

樣本數為4、5、8、10、12時的抽樣分布

  從上圖可以發現一件有趣的事情,就是當抽出來的樣本數目越多,抽樣分布的「樣子」其實就會慢慢變得穩定。也就是說,當每次抽球活動中抽出的球越多,即使我們再繼續增加每次抽出球的數目,最後的抽樣分布的「樣貌」都不太會改變了。統計學家們發現,當抽出的球超過一定的數目之後,抽樣分布就會形成一種特殊的分布樣貌,這就是大名鼎鼎的常態分布啦~

當樣本數越大,抽樣分布就會越接近常態分布

當樣本數越大,抽樣分布就會越接近常態分布


抽樣分布、常態分布與中央極限定理

  現在來回想一下這個過程是怎麼發生的。

  首先我們有一個黑色的大袋子,裡面有一堆球。我們從這個袋子裡面每一次抽出n個球,計算這n個球的平均數有多少種可能,以及所有可能出現的樣本組合。將這些可能的樣本組合畫成次數分配圖後,就會得到抽樣分布圖。

從抽樣到常態分布的過程

從抽樣到常態分布的過程

  如果用統計學的名詞來描述這個過程,就是我們從一個母體裡面進行樣本數為n的抽樣,計算這n個樣本的平均數,並將獲得各種平均分數的機率繪製成圖(因此橫軸是平均數,縱軸是機率或頻率)。當樣本數量越大的時候,這個機率分布圖會越往常態分布靠近(統計上稱為收斂於常態)。


每個步驟其實都可以用統計術語來表達

每個步驟其實都可以用統計術語來表達

  上面這個過程,就是大名鼎鼎的中央極限定理了。這也是為什麼上一篇要特別區分母體分布、樣本分布和抽樣分布三個名詞的原因,因為最後會成為常態的是抽樣分布,而母體分布即使不是常態也沒有關係。如同上面的那個大塑膠袋,裡面的母體分布是均勻的分布(0分球和1分球各一半,完全沒有常態),由此可知即使母體沒有常態,最後抽樣分布都還是會趨向常態的。

這就是中央極限定理

這就是中央極限定理

那麼知道抽樣分布是常態的,對我們推論母體又能夠有什麼幫助?這就是下一篇要討論的問題了。



百忙之中抽空去了G eight電玩展,真希望可以有時間好好寫心得Q_Q



致謝

本文所用圖片當中的素材來自於https://www.flaticon.com,由juicy_fish創作。



avatar-img
52會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
  這幾天因為選舉民調的關係,統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞,例如抽樣、區間、抽樣誤差等等。   其實這些通通都是推論統計的觀念,網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼,應該不需要我野人獻曝了。   不過如果真的想要了
  推論統計應該是讓很多人苦惱過的主題,這篇文的目標就是回答「到底推論統計是什麼?」這個問題。
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
  這幾天因為選舉民調的關係,統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞,例如抽樣、區間、抽樣誤差等等。   其實這些通通都是推論統計的觀念,網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼,應該不需要我野人獻曝了。   不過如果真的想要了
  推論統計應該是讓很多人苦惱過的主題,這篇文的目標就是回答「到底推論統計是什麼?」這個問題。
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
你可能也想看
Google News 追蹤
Thumbnail
1.計算其累積分布函數,使得 𝐹(𝑥)的範圍為 [0,1] 2.從均勻分布 𝑈(0,1) 中生成一個隨機數 𝑢(藍色的點) 3.計算反函數 4.從反函數中抽樣x(紅色的點)
Thumbnail
除了「夠好」經驗法則和避免最壞結果的決策模式外,作者也特別強調機率和自然頻率的觀念。 我們在前面討論蒙提霍爾問題時已經稍微接觸過,接下來我們繼續進行更深入的探討。以下是作者舉的一個例子: 女性罹患乳癌的盛行機率是1%。 如果一名婦女有乳癌,那麼她檢驗為陽性的機率是90%。 倘若一名婦女沒有乳
Thumbnail
球隊陣型是影響比賽角球數量的重要因素。不同的陣型有不同的戰術目標和風格,這些都會影響角球投注的分析。
Thumbnail
給定一個整數陣列hand代表手牌點數,和參數groupSize。請問能不能每groupSize牌一組,每一組都拼出順子? 如果可以,返回True。如果無解,返回False。演算法使用最小堆積或排序。關鍵知識點:從小到大掃描每張牌,檢查能不能組成牌組長度為groupSize的順子即可。
Thumbnail
抽樣方式影響調查的樣本結果是否可以代表母體狀況。方便抽樣可能導致偏誤,應考慮更系統化的抽樣方法,例如簡單隨機抽樣,以確保樣本情況可以回推母體情況。文章透過範例說明,解釋樣本和母體之間關聯。
Thumbnail
這一節的標題是0.4 A Normal Distribution of Random Numbers,介紹常態分布的基本概念,以及相關亂數產生器的使用方法與應用方式。
Thumbnail
在模擬自然界中的事物時導入隨機性,可以讓結果看起來比較自然,但如果導入的隨機性都是uniform distribution,那未免也太呆板了。這時候,我們需要nonuniform distribution亂數,來讓模擬出來的結果,更像真的一樣。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
「籤變少了,抽到獎的機率提高,所以要加價。」游否希對玩家說明的加價理由乍看之下似乎合理,但只要利用一個非常簡單,數學白痴如我都可以理解的機率概念,就可以戳破這個話術……
Thumbnail
1.計算其累積分布函數,使得 𝐹(𝑥)的範圍為 [0,1] 2.從均勻分布 𝑈(0,1) 中生成一個隨機數 𝑢(藍色的點) 3.計算反函數 4.從反函數中抽樣x(紅色的點)
Thumbnail
除了「夠好」經驗法則和避免最壞結果的決策模式外,作者也特別強調機率和自然頻率的觀念。 我們在前面討論蒙提霍爾問題時已經稍微接觸過,接下來我們繼續進行更深入的探討。以下是作者舉的一個例子: 女性罹患乳癌的盛行機率是1%。 如果一名婦女有乳癌,那麼她檢驗為陽性的機率是90%。 倘若一名婦女沒有乳
Thumbnail
球隊陣型是影響比賽角球數量的重要因素。不同的陣型有不同的戰術目標和風格,這些都會影響角球投注的分析。
Thumbnail
給定一個整數陣列hand代表手牌點數,和參數groupSize。請問能不能每groupSize牌一組,每一組都拼出順子? 如果可以,返回True。如果無解,返回False。演算法使用最小堆積或排序。關鍵知識點:從小到大掃描每張牌,檢查能不能組成牌組長度為groupSize的順子即可。
Thumbnail
抽樣方式影響調查的樣本結果是否可以代表母體狀況。方便抽樣可能導致偏誤,應考慮更系統化的抽樣方法,例如簡單隨機抽樣,以確保樣本情況可以回推母體情況。文章透過範例說明,解釋樣本和母體之間關聯。
Thumbnail
這一節的標題是0.4 A Normal Distribution of Random Numbers,介紹常態分布的基本概念,以及相關亂數產生器的使用方法與應用方式。
Thumbnail
在模擬自然界中的事物時導入隨機性,可以讓結果看起來比較自然,但如果導入的隨機性都是uniform distribution,那未免也太呆板了。這時候,我們需要nonuniform distribution亂數,來讓模擬出來的結果,更像真的一樣。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
「籤變少了,抽到獎的機率提高,所以要加價。」游否希對玩家說明的加價理由乍看之下似乎合理,但只要利用一個非常簡單,數學白痴如我都可以理解的機率概念,就可以戳破這個話術……