統計急救箱─抽樣分布與中央極限定理(一)

閱讀時間約 7 分鐘

  這幾天因為選舉民調的關係,統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞,例如抽樣、區間、抽樣誤差等等。

  其實這些通通都是推論統計的觀念,網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼,應該不需要我野人獻曝了。

  不過如果真的想要了解什麼是信賴區間、什麼是抽樣誤差,其實要從更基本的地方講起。那就是這篇與下一篇文章的主角──抽樣分布與中央極限定理。


抽樣與抽樣分布

  在上一篇文章中我們提到了什麼是抽樣與樣本,我們要從這個部分接著進行推論統計的旅程。


準備母體

  雖然之前說我們實際上不可能知道母體的狀態,不過我們還是可以先假設我們知道,這樣比較方便了解什麼是抽樣分布。OK,現在我們把上次那個黑色大塑膠袋拿出來,並且在裡面塞五顆0分的球跟五顆1分的球。

平均數是0.5的母體

平均數是0.5的母體

現在計算一下裡面的球的總平均,也就是5 / 10,於是我們知道母體平均數 (μ) 是0.5。順帶一提,那個長得像小寫U的符號是個希臘字母,念作mu,在統計學當中通常被當作是母體平均數的符號。


進行抽樣

  把這大塑膠袋拿出來,又把球塞進去,那當然就是要來抽了吧?沒錯!現在我們從這個袋子裡面抽球。不過有個規則──我們一次只抽取一顆球,並且抽完之後要計算這些抽出來的球的平均數

  在這個規則之下,我們會得到幾種可能的結果?如果你認為這問題很簡單,請不要懷疑你的感覺。是的,答案就是2種,不是0就是1。而無論得到的是0或者是1,都只會有一種可能性:0分球1顆,或者1分球1顆。


上面的圖右邊就把這兩種可能性分別描在圖上。x軸是我們計算的平均數,縱軸則是得到這個平均數的可能性有幾個。誠如上面所述,平均數只有0或1兩種可能,而且這兩種可能都只有一種結果。我們也可以像第二張圖顯示的一樣,整理出所謂的次數分配表。

  如果你覺得上面這個過程非常簡單,那你要感到高興。因為這就是最最基本的抽樣分布形成的過程,而現在的你已經會了。那個次數分配圖和次數分配表,就是大名鼎鼎的抽樣分布

  雖然基本原理已經搞懂了,不過我們還是要延伸一下,因為光是上面的過程可能只會讓人產生一種「蛤?就這樣?所以抽樣分布可以幹嘛?」的困惑。沒關係,我們繼續抽下去吧。

  還記得剛剛的規則嗎?一次只能抽一顆球,並且抽完之後要計算平均數。那如果我們現在改成一次抽兩顆球的話,這個次數分配表和次數分配圖會變什麼樣子呢?

一次抽兩顆球得到的抽樣分布

一次抽兩顆球得到的抽樣分布

我們會發現抽兩顆球的時候,每次抽出來得到的平均數可能會有三種數值:0分(兩顆球都是0分球)、0.5分(抽到一顆1分球和一顆0分球)以及1分(抽到兩顆1分球)。

  接下來我們要考慮得到這三種平均數的可能組合。得到0分的可能性只有一種,那就是兩顆球都是0分。得到1分的可能性也只有一種,就是兩顆球都是1分。但是得到0.5的可能性卻有兩種,因為你可能左手抽到0分,右手抽到1分;但也可能是左手抽到1分,右手抽到0分。這兩種情形的平均數都會是0.5。

  到目前為止應該還不會太難吧?那我們可以再延伸一下,如果改成一次抽取四顆球呢?那麼抽樣分布就會長成下面這個樣子。

一次抽取四顆球的抽樣分布

一次抽取四顆球的抽樣分布

稍微想一下一次抽四顆球可能會有多少種平均數?答案是五種:0、1/4、2/4、3/4、1。其實可以想像成這四顆球裡面到底會有幾顆1分球,答案就是從沒有1分球(平均為0分)到四顆都是1分球(平均為1分)。

  如果把每一種平均數的可能性都列出來,會發現總共有16種組合。只有一種機會得到平均0分,那就是全部都沒有1分球。而有4種狀況會得到0.25的平均值,那就是只得到一顆1分球,而考量到排列順序的情形下就會有四種組合。依此類推,就可以得到上面這個次數分配圖和次數分配表囉!


所以抽樣分布是什麼?

  從上面的過程中可以知道,抽樣分布其實可以等同於一種次數分配圖,只不過這個圖的x軸是平均數。平均數在統計學當中是一種統計量,也就是要對抽出來的樣本進行一些運算才能夠得到這個數值(因此不是樣本的原始數值)。

  因此,也可以說抽樣分布其實是樣本統計量的次數分配圖


母體分布、樣本分布與抽樣分布

  以前在學統計的時候,其實一直不懂抽樣分布是什麼。一直到很後來才發現,我把樣本分布和抽樣分布搞混了,所以在理解抽樣分布和後面的中央極限定理時卡關很久。

  現在解釋完抽樣分布了,我們可以來釐清一下母體分布、樣本分布以及抽樣分布三個名詞。

  首先,母體分布顧名思義,指的是母體的分布狀況。在多數情況下,母體的樣態是我們不知道的,因此才需要做推論統計。當然在某些狀況之下,我們還是有可能知道母體的一些特性,例如在行政院主計處的統計資料當中可以找到全台灣的生理性別比例,這就是台灣人的母群特性。

  在剛剛的例子裡面,如果把母體分布畫成次數分布圖,會長成下面這樣。會發現因為0分球和1分球的數量一樣多,因此這是個均勻分布,也就是形狀像是個長方形的分布。因為母體是不太會改變的(在不考慮時間影響的狀況下),因此母體分布不會改變,跟樣本和抽樣都沒有關係(如果沒有人去動這個袋子,那袋子裡的球就永遠都是這個分布)。

母體分布是指母體裡面元素的分布情形

母體分布是指母體裡面元素的分布情形

  而樣本分布,指的則是單次抽樣後,所取得的元素分布狀況。例如我在路上發問卷,找100個人寫問卷,然後回來統計每個人的性別。這100個人是來自於台灣這個母體的樣本,我隨便從路上找100個人就是一種抽樣。於是統計這100個人的性別,就是樣本分布。

  以剛剛的例子而言,假如我一次從袋子裡面抽取4顆球,我們會有16種可能組合。也就是說,任何一次我們從袋子裡面抽四顆球出來(抽樣),都是從這16個組合(樣本)裡面挑選一個的意思。如果把這個組合畫成次數分配圖,就是所謂的樣本分布。例如下面這張圖,假如某次我抽四顆球,得到的是 (0, 0, 1, 1) 這樣的結果,畫成次數分配圖就會長成右邊那樣,也是個均勻分布。當然,如果你抽到的是 (0, 1, 1, 1),就會長成另一個樣子。因此,樣本分布是可能隨著每次抽樣不同而改變的

樣本分布是指抽樣得到樣本後,裡面的原始資料分布

樣本分布是指抽樣得到樣本後,裡面的原始資料分布


  最後,抽樣分布指的是每次抽樣得到樣本後,針對樣本計算出一個統計量,並計算這個統計量次數分布。例如我發一次問卷就找100人來填,如果我窮究這100人裡面每一種男女性別比例的排列可能性(這要非常有耐心和細心才有辦法做到......或者交給程式做吧),就會得到所謂的抽樣分布。因為這個抽樣分布是推論出來的,因此無論我發幾次這樣的問卷,抽樣分布都是不會改變的。例如我前前後後重複發了五次的問卷。這五次問卷裡面的男女比例都可能不一樣(樣本分布會隨著每次得到的樣本而改變),但每一次推論出來的抽樣分布都是一樣的。

  但抽樣分布也並非完全不會改變。不像是母體分布完全不改變,也不像是樣本分布每次抽樣都可能改變,抽樣分布是會隨著特定條件而改變的──就是樣本數。從我們剛剛抽球的例子裡面,可以看到隨著每次抽出的球數量增加,推論出的抽樣分布形狀也不太一樣。「每次抽出幾顆球」就是決定「每次抽樣的樣本數量」的意思。

抽樣分布指的是樣本統計量的次數分布

抽樣分布指的是樣本統計量的次數分布


  以上就是對抽樣分布的介紹。在先有了抽樣分布的觀念之後,下一篇就會帶出抽樣分布和常態分布的關聯性。以這個關聯性為基礎,才能夠解釋更後面的信賴區間是什麼。當學會信賴區間之後,就大概可以理解這次民調風波裡面的爭議囉!



  因為工作過於忙碌而無預警的停更一個月,實在是慚愧......希望未來可以回復穩定產出的狀態。



致謝

本文所用圖片當中的素材來自於https://www.flaticon.com,由juicy_fish創作。



  


49會員
30內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
  推論統計應該是讓很多人苦惱過的主題,這篇文的目標就是回答「到底推論統計是什麼?」這個問題。
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  推論統計應該是讓很多人苦惱過的主題,這篇文的目標就是回答「到底推論統計是什麼?」這個問題。
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
Thumbnail
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
Thumbnail
覺得閱讀事一件蠻孤單的事情,看劇、聽音樂甚至出遊都可以與他人共享,而閱讀先不說難以與他人同步進行,每個人有感觸的部分都需要經過內化,比較難像戲劇那般被普遍的討論。所以讀墨這種以創作活絡的閱讀社群來鼓勵大家閱,同時利用類似等級打怪與收集限量徽章的遊戲方式增加使用者的參與意願都讓我感受出他們經營的用心。
Thumbnail
對,我也很想問為什麼有(中)!?面對這個沒完沒了、越挖越深的坑,讓我很想掐死過去那個不即時整理閱讀筆記的自己。 不過不得不說,讀墨的另一個好處是比起降低書籍購買價格的「勸買」機制,他們更會舉辦各種活動來「勸讀」。每個月不同主題的閱讀馬拉松活動,讓我在去年接觸了許多不常閱讀的類型的書。
Thumbnail
工作後的最初幾年有點不習慣沒有「回家作業」填滿工餘時間,被分割的生活偶爾會不知道該做些什麼,除了前幾年準備建築師考試做題目、練手感,到最近2年佛系的等術科過關外,空餘的時間居然默默養成了閱讀習慣。
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
Thumbnail
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
Thumbnail
覺得閱讀事一件蠻孤單的事情,看劇、聽音樂甚至出遊都可以與他人共享,而閱讀先不說難以與他人同步進行,每個人有感觸的部分都需要經過內化,比較難像戲劇那般被普遍的討論。所以讀墨這種以創作活絡的閱讀社群來鼓勵大家閱,同時利用類似等級打怪與收集限量徽章的遊戲方式增加使用者的參與意願都讓我感受出他們經營的用心。
Thumbnail
對,我也很想問為什麼有(中)!?面對這個沒完沒了、越挖越深的坑,讓我很想掐死過去那個不即時整理閱讀筆記的自己。 不過不得不說,讀墨的另一個好處是比起降低書籍購買價格的「勸買」機制,他們更會舉辦各種活動來「勸讀」。每個月不同主題的閱讀馬拉松活動,讓我在去年接觸了許多不常閱讀的類型的書。
Thumbnail
工作後的最初幾年有點不習慣沒有「回家作業」填滿工餘時間,被分割的生活偶爾會不知道該做些什麼,除了前幾年準備建築師考試做題目、練手感,到最近2年佛系的等術科過關外,空餘的時間居然默默養成了閱讀習慣。
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下