統計急救箱─抽樣分布與中央極限定理（一）

Way

發佈於社會科學初心者的統計急救箱

2024/11/19 更新2023/11/19 發佈閱讀 7 分鐘

　　這幾天因為選舉民調的關係，統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞，例如抽樣、區間、抽樣誤差等等。

　　其實這些通通都是推論統計的觀念，網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼，應該不需要我野人獻曝了。

　　不過如果真的想要了解什麼是信賴區間、什麼是抽樣誤差，其實要從更基本的地方講起。那就是這篇與下一篇文章的主角──抽樣分布與中央極限定理。

抽樣與抽樣分布

　　在上一篇文章中我們提到了什麼是抽樣與樣本，我們要從這個部分接著進行推論統計的旅程。

準備母體

　　雖然之前說我們實際上不可能知道母體的狀態，不過我們還是可以先假設我們知道，這樣比較方便了解什麼是抽樣分布。OK，現在我們把上次那個黑色大塑膠袋拿出來，並且在裡面塞五顆0分的球跟五顆1分的球。

平均數是0.5的母體

現在計算一下裡面的球的總平均，也就是5 / 10，於是我們知道母體平均數 (μ) 是0.5。順帶一提，那個長得像小寫U的符號是個希臘字母，念作mu，在統計學當中通常被當作是母體平均數的符號。

進行抽樣

　　把這大塑膠袋拿出來，又把球塞進去，那當然就是要來抽了吧？沒錯！現在我們從這個袋子裡面抽球。不過有個規則──我們一次只抽取一顆球，並且抽完之後要計算這些抽出來的球的平均數。

　　在這個規則之下，我們會得到幾種可能的結果？如果你認為這問題很簡單，請不要懷疑你的感覺。是的，答案就是2種，不是0就是1。而無論得到的是0或者是1，都只會有一種可能性：0分球1顆，或者1分球1顆。

上面的圖右邊就把這兩種可能性分別描在圖上。x軸是我們計算的平均數，縱軸則是得到這個平均數的可能性有幾個。誠如上面所述，平均數只有0或1兩種可能，而且這兩種可能都只有一種結果。我們也可以像第二張圖顯示的一樣，整理出所謂的次數分配表。

　　如果你覺得上面這個過程非常簡單，那你要感到高興。因為這就是最最基本的抽樣分布形成的過程，而現在的你已經會了。那個次數分配圖和次數分配表，就是大名鼎鼎的抽樣分布。

　　雖然基本原理已經搞懂了，不過我們還是要延伸一下，因為光是上面的過程可能只會讓人產生一種「蛤？就這樣？所以抽樣分布可以幹嘛？」的困惑。沒關係，我們繼續抽下去吧。

　　還記得剛剛的規則嗎？一次只能抽一顆球，並且抽完之後要計算平均數。那如果我們現在改成一次抽兩顆球的話，這個次數分配表和次數分配圖會變什麼樣子呢？

一次抽兩顆球得到的抽樣分布

我們會發現抽兩顆球的時候，每次抽出來得到的平均數可能會有三種數值：0分（兩顆球都是0分球）、0.5分（抽到一顆1分球和一顆0分球）以及1分（抽到兩顆1分球）。

　　接下來我們要考慮得到這三種平均數的可能組合。得到0分的可能性只有一種，那就是兩顆球都是0分。得到1分的可能性也只有一種，就是兩顆球都是1分。但是得到0.5的可能性卻有兩種，因為你可能左手抽到0分，右手抽到1分；但也可能是左手抽到1分，右手抽到0分。這兩種情形的平均數都會是0.5。

　　到目前為止應該還不會太難吧？那我們可以再延伸一下，如果改成一次抽取四顆球呢？那麼抽樣分布就會長成下面這個樣子。

一次抽取四顆球的抽樣分布

稍微想一下一次抽四顆球可能會有多少種平均數？答案是五種：0、1/4、2/4、3/4、1。其實可以想像成這四顆球裡面到底會有幾顆1分球，答案就是從沒有1分球（平均為0分）到四顆都是1分球（平均為1分）。

　　如果把每一種平均數的可能性都列出來，會發現總共有16種組合。只有一種機會得到平均0分，那就是全部都沒有1分球。而有4種狀況會得到0.25的平均值，那就是只得到一顆1分球，而考量到排列順序的情形下就會有四種組合。依此類推，就可以得到上面這個次數分配圖和次數分配表囉！

所以抽樣分布是什麼？

　　從上面的過程中可以知道，抽樣分布其實可以等同於一種次數分配圖，只不過這個圖的x軸是平均數。平均數在統計學當中是一種統計量，也就是要對抽出來的樣本進行一些運算才能夠得到這個數值（因此不是樣本的原始數值）。

　　因此，也可以說抽樣分布其實是樣本統計量的次數分配圖。

母體分布、樣本分布與抽樣分布

　　以前在學統計的時候，其實一直不懂抽樣分布是什麼。一直到很後來才發現，我把樣本分布和抽樣分布搞混了，所以在理解抽樣分布和後面的中央極限定理時卡關很久。

　　現在解釋完抽樣分布了，我們可以來釐清一下母體分布、樣本分布以及抽樣分布三個名詞。

　　首先，母體分布顧名思義，指的是母體的分布狀況。在多數情況下，母體的樣態是我們不知道的，因此才需要做推論統計。當然在某些狀況之下，我們還是有可能知道母體的一些特性，例如在行政院主計處的統計資料當中可以找到全台灣的生理性別比例，這就是台灣人的母群特性。

　　在剛剛的例子裡面，如果把母體分布畫成次數分布圖，會長成下面這樣。會發現因為0分球和1分球的數量一樣多，因此這是個均勻分布，也就是形狀像是個長方形的分布。因為母體是不太會改變的（在不考慮時間影響的狀況下），因此母體分布不會改變，跟樣本和抽樣都沒有關係（如果沒有人去動這個袋子，那袋子裡的球就永遠都是這個分布）。

母體分布是指母體裡面元素的分布情形

　　而樣本分布，指的則是單次抽樣後，所取得的元素分布狀況。例如我在路上發問卷，找100個人寫問卷，然後回來統計每個人的性別。這100個人是來自於台灣這個母體的樣本，我隨便從路上找100個人就是一種抽樣。於是統計這100個人的性別，就是樣本分布。

　　以剛剛的例子而言，假如我一次從袋子裡面抽取4顆球，我們會有16種可能組合。也就是說，任何一次我們從袋子裡面抽四顆球出來（抽樣），都是從這16個組合（樣本）裡面挑選一個的意思。如果把這個組合畫成次數分配圖，就是所謂的樣本分布。例如下面這張圖，假如某次我抽四顆球，得到的是 (0, 0, 1, 1) 這樣的結果，畫成次數分配圖就會長成右邊那樣，也是個均勻分布。當然，如果你抽到的是 (0, 1, 1, 1)，就會長成另一個樣子。因此，樣本分布是可能隨著每次抽樣不同而改變的。

樣本分布是指抽樣得到樣本後，裡面的原始資料分布

　　最後，抽樣分布指的是每次抽樣得到樣本後，針對樣本計算出一個統計量，並計算這個統計量次數分布。例如我發一次問卷就找100人來填，如果我窮究這100人裡面每一種男女性別比例的排列可能性（這要非常有耐心和細心才有辦法做到......或者交給程式做吧），就會得到所謂的抽樣分布。因為這個抽樣分布是推論出來的，因此無論我發幾次這樣的問卷，抽樣分布都是不會改變的。例如我前前後後重複發了五次的問卷。這五次問卷裡面的男女比例都可能不一樣（樣本分布會隨著每次得到的樣本而改變），但每一次推論出來的抽樣分布都是一樣的。

　　但抽樣分布也並非完全不會改變。不像是母體分布完全不改變，也不像是樣本分布每次抽樣都可能改變，抽樣分布是會隨著特定條件而改變的──就是樣本數。從我們剛剛抽球的例子裡面，可以看到隨著每次抽出的球數量增加，推論出的抽樣分布形狀也不太一樣。「每次抽出幾顆球」就是決定「每次抽樣的樣本數量」的意思。

抽樣分布指的是樣本統計量的次數分布

　　以上就是對抽樣分布的介紹。在先有了抽樣分布的觀念之後，下一篇就會帶出抽樣分布和常態分布的關聯性。以這個關聯性為基礎，才能夠解釋更後面的信賴區間是什麼。當學會信賴區間之後，就大概可以理解這次民調風波裡面的爭議囉！

　　因為工作過於忙碌而無預警的停更一個月，實在是慚愧......希望未來可以回復穩定產出的狀態。

致謝

本文所用圖片當中的素材來自於https://www.flaticon.com，由juicy_fish創作。

統計急救箱的沙龍社會科學初心者的統計急救箱

留言

統計急救箱的沙龍

78會員

32內容數

大學念文組，碩士班的報告突然要用統計了怎麼辦？沒學過統計怎麼寫量化學位論文？跟著統計書操作都沒問題，但報表都不知道在講什麼，也不知道做的分析到底對不對？作者在應用統計的路上跌跌撞撞也差不多十年了，希望有些心得可以幫助到有這些困擾的你。

統計急救箱的沙龍的其他內容

2024/12/29

統計急救箱─使用獨立t test的時機與前提

　　上回講了獨立樣本t test的運作原理，不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test，以及在什麼條件下可以使用獨立樣本t test？

2024/12/29

統計急救箱─使用獨立t test的時機與前提

2024/12/15

統計急救箱─獨立樣本t檢定

　在實務上，t檢定最常被拿來使用的時機是檢驗兩個群體的（母體）平均數是不是相同。

2024/12/15

統計急救箱─獨立樣本t檢定

　在實務上，t檢定最常被拿來使用的時機是檢驗兩個群體的（母體）平均數是不是相同。

2024/10/20

統計急救箱─相關係數的顯著性

既然現在講完t檢定的基礎了，正好是時候來談談單樣本t檢定的重要用途之一：檢定相關係數的顯著性。

2024/10/20

統計急救箱─相關係數的顯著性

既然現在講完t檢定的基礎了，正好是時候來談談單樣本t檢定的重要用途之一：檢定相關係數的顯著性。

看更多

你可能也想看

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

創作不只是個人戰，在 vocus ，也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」，現在有了更強大的新夥伴加入！除了大家熟悉的「官方主題沙龍」，這次我們徵召了 8 位領域各異的「個人主題專家」，將再度嘗試創作的各種可能，和格友們激發出更多未知的火花。

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

看完上篇 4 位新成員的靈魂拷問，是不是意猶未盡？別急，野格團新血的驚喜正接著登場！今天下篇接力的另外 4 位「個人主題專家」，戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長；這些人如何維持長跑般的創作動力？在爆紅的文章背後，又藏著哪些不為人知的洞察？5 大靈魂拷問繼續出擊

#創作#創作者推薦#靈感

2026/03/25

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

#創作#創作者推薦#靈感

2026/03/25

JayRay 的沙龍

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

在資料分析過程中，透過衡量變數之間的線性或非線性關係，能有效探索數據集，篩選出重要特徵，並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性，以及利用互資訊評估變數之間的依賴程度，幫助資料科學家在建模過程中選擇適當的變數，提升模型效果。

#數據#資訊#模型

2024/08/07

JayRay 的沙龍

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

#數據#資訊#模型

2024/08/07

統計急救箱的沙龍

統計急救箱─常態Z分數與Z檢定

終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。為了讓順序比較恰當，這篇比較晚發的文章被設定成假設檢定後的下一篇。

#統計急救箱#統計學#社會科學

2024/06/24

統計急救箱的沙龍

統計急救箱─常態Z分數與Z檢定

終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。為了讓順序比較恰當，這篇比較晚發的文章被設定成假設檢定後的下一篇。

#統計急救箱#統計學#社會科學

2024/06/24

ysf的沙龍

The Nature of Code閱讀心得與Python實作：0.4 A Normal Distribution...

這一節的標題是0.4 A Normal Distribution of Random Numbers，介紹常態分布的基本概念，以及相關亂數產生器的使用方法與應用方式。

#python#Python#PYTHON

2024/06/05

ysf的沙龍

The Nature of Code閱讀心得與Python實作：0.4 A Normal Distribution...

這一節的標題是0.4 A Normal Distribution of Random Numbers，介紹常態分布的基本概念，以及相關亂數產生器的使用方法與應用方式。

#python#Python#PYTHON

2024/06/05

高中數學主題練習—平均數計算

2024/04/13

高中數學主題練習—平均數計算

2024/04/13

《社會菁英必備的數學素養》: 你有數學素養嗎?

這本書的起源來自於疫情期間，作者以數學家的角度，在網路上發表文章，幫大眾解讀疫情的統計數字是什麼意思，我看完這本書以後不禁感嘆，如果我更早理解這些概念就好了。

2024/03/25

MINEBOOK掘冊的沙龍

《社會菁英必備的數學素養》: 你有數學素養嗎?

2024/03/25

Martin Chiu的沙龍

選票驗偽統計分析的正當性與證據力

　當開啟試算表（EXCEL等）的累加（SUM）及離散度，標準差（STDEV）的運算功能後，逐一統計的累進報票式選票統計表就可以退休了，而且全國一萬七千多所的數據不待一所所列出，就可以用較小選區（例如嘉義市198所，宜蘭縣431所等）的統計過程證明統計結果都是正確的，尤其是將計算式列出（隱藏前面的

2024/02/26

2024/02/26

　　在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率，而更之前也看過了抽樣分布是如何形成常態分布的過程，現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。

2024/01/21

2024/01/21

第一堂學生創新團隊的點評我們的統計在社會科學裡面，它到底是怎麼樣產生的，我們今天要算這個統計學，要送統計，他們本身要有Raw data，這樣才有辦法進行運用，如：我們要怎麼算平均身高如下是：「全部身高」除以「人數」等於每個人幾公分所以我們要設計如何用電腦計算，要「input」

2024/01/10

2024/01/10

依照中央極限定理，我們可以得知（獨立且隨機樣本的）抽樣分布最終會形成常態分佈，那麼這件事情到底為什麼很重要呢？這篇文章就來介紹一些常態分布的基本特性，以及最重要的──常態分布怎麼幫助我們計算機率。

2023/12/25

2023/12/25

今天來講：統計模擬研究的入門文章。（2023-08-23）

#統計#設計#文章

2023/08/23

🎃 南瓜燈學術研究

統計模擬研究新手可以讀的 10 篇論文

今天來講：統計模擬研究的入門文章。（2023-08-23）

#統計#設計#文章

2023/08/23

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News