為什麼信心水準不是機率?

更新於 發佈於 閱讀時間約 6 分鐘
這是很多統計學初學者會有的疑惑。大部分的統計數據呈現,像是人口調查、民調等等,都會利用抽樣來推估真實值,並在抽樣的結果附近加上一段信賴區間,可以簡單理解為誤差範圍(如果涉及統計推論則會呈現 p 值)。那個範圍會有他對應的信心水準,但很多人將其理解為「真實值落在這個範圍內的機率」,然而這其實是錯誤的。
我在網路上幫高中生解題多年(雖然課綱現在把信賴區間刪掉了),發現造成這樣錯誤解讀的根本原因是大家對於「抽樣分佈(sample distribution)」,也就是 X̄(樣本平均)的機率分布的理解不正確導致。

▍什麼是抽樣分佈?

假設今天我們對一個母體(比方說全台灣的人口)進行抽樣,母體的平均和標準差是 μ 和 σ(這兩個我們當然不知道是多少),且每次抽樣取 n 個樣本。第一次抽樣之後得到 n 個數據,然後算它的平均,就會得到第一次的樣本平均 X̄₁,然後再進行第二次抽樣,也是抽 n 個數據,得到第二次的 X̄₂,以此類推,直到從母體抽出 n 個樣本的所有可能都抽完。很明顯每一次的 X̄ 幾乎都不同,因為每次抽樣得到的樣本是隨機的。
注意一下 n 不是抽樣的次數,是每次抽樣的樣本數。總共抽樣幾次得看母體有多大,有多少可能抽出的組合,造成各種可能的 X̄ 值,最後當所有的 X̄ 值都抽到了,還有抽到這個值的次數,就可以知道得到各個 X̄ 值發生的機率,所以 X̄ 是隨機變數。我們將這個機率分布畫出來,橫軸是 X̄ 的各種可能值,縱軸是它發生的機率,這就是「抽樣分佈」。
統計學家分析這個分佈的性質得到了「中央極限定理(central limit theorem, CLT)」,證明有點複雜所以通常教科書只會寫以下結論:
  1. 抽樣分佈的平均正好是母體平均 μ。
  2. 抽樣分佈的標準差是母體標準差 σ 除以 √n。
  3. 如果 n 夠大的話,抽樣分佈會接近常態分佈。
稍微分析一下這結果:第三條說這分佈會呈現出鐘型曲線,可見這分佈的平均大概在中央最高峰處,而且第一條告訴你它等於母體平均,也就是說樣本平均和母體平均的機率超高,這相當直觀;第二條則說明了抽出的樣本平均之間的差異程度,比單獨觀測母體的各個值的差異程度還小(因為 n 是正整數),這也很好理解,畢竟你觀察了更多值,只是證明就是個大工程了。
原本母體的數據可以是隨便一個分佈(高中的話就是拿二項分布當母體),但 X̄ 的機率分佈是常態分佈,兩者完全不同概念!你可能想說,我們怎麼可能抽完母體的所有抽樣可能?如果母體是全台灣 2300 萬人,我每次抽樣 10 人,抽樣的可能數(C 23000000 取 10)大概是 1.14×10⁶⁷,這最好抽的完?
不是的,我們現在根本還沒實際進行抽樣,以上都是在抽樣前,對於抽樣這件事所進行的事先分析,當你看清了這點,你應該就想通抽樣分佈是什麼了。
抽樣分佈是實際抽樣前對 X̄ 的機率分析,並由中央極限定理說明其性質。

▍信賴區間和信心水準

之所以做以上的分析是要讓你了解 X̄ 的行為,接下來你只需要進行一次抽樣得到一個 X̄,就能利用抽樣分佈來告訴你這數據有多可靠。那你抽樣出的樣本平均有沒有等於母體平均呢?答案是:要嘛有,要嘛沒有嘛!
信賴區間(confidence interval)是什麼?它是你得到的 X̄ 所展開的一定範圍,畢竟除非你的籤運好的離譜,不然你應該不會很有自信地聲稱你的 X̄ 就是母體的平均 μ,所以要展開一段區間作為誤差範圍,保守一點地說 μ 在這裡面。這個範圍要取多大是你決定,如果取的超大,你自然就有更高的信心來宣稱這範圍涵蓋 μ,這個信心程度就是所謂的信心水準(confidence level)
當然你也可以取到讓整個信賴區間涵蓋所有 X̄ 的可能值,然後說你有 100% 的信心這會涵蓋 μ,那這就只是個廢話。就好像你想知道台灣人平均年齡,抽了一個樣本出來後說平均年齡在 0 到 1000 歲之間,那其實跟沒說一樣。所以信賴區間能夠取的越小越好,但越小的話信心水準肯定會下降,也不能取太小,要自己在這兩者間權衡。
信賴區間越小越好,與此同時,其信心水準要越高越好。
那信心水準怎麼算,總不是靠感覺來說自己多有信心吧?
從中央極限定理知道抽樣分佈是常態分佈,為了方便查表,統計學常把數據標準化,將原始數據扣掉平均,再除以標準差,這樣平均就平移到 0,標準差則伸縮成 1,這東西就是「z 分數(z-score)」。中央極限定理也已經告訴你抽樣分佈的平均和標準差是多少,則公式如下:
當機率分佈橫軸的隨機變數標準化後,一切就好辦了,例如如果我想求抽樣得到的 X̄ 換算成 z 分數後,這個值落在中央的 μ(其值為 0)往左右展開一個標準差(加減 1)的機率,那就將這個常態分佈的機率函數積分,算 ±1 之間的曲線下面積,相較於曲線下的總面積(其實就是 1,因為是機率函數)的比值。
由於平均和標準差的標準化,這個常態分佈的函數是固定的,那就可以建出固定的表,以後只要查表就能知道你要的曲線下面積。
而我們可以發現,在 ±1 之間(加減 1 個標準差)的曲線下面積是 0.682、±2(加減 2 個標準差)的則是 0.954、±3(加減 3 個標準差)的則是 0.997,這一般被稱為「68-95-99.7 的經驗法則(empirical rule)」因為這比例早在 18 世紀初就被觀察到,而不是計算出來的。
以加減 2 個標準差為例,用數學式表達的話就是:
接著將 z 分數的公式代入移項,讓 μ 在中間:
這告訴我們:如果我們抽樣的話,抽出來的 X̄ 加減 2 個標準差的區間內涵蓋 μ 的機率是 95.4%。這是機率,但再次提醒,現在還只是抽樣前進行的分析
現在實際進行抽樣,會得到一個固定的 X̄ 值,此時 X̄ 不再是隨機變數,它展開的信賴區間有沒有涵蓋 μ 已變成既定事實(儘管你不知道到底有沒有),而 μ 也不是隨機變數,哪來的機率可言?
我們只能回顧抽樣分佈,得知對於所有可能的 X̄ 值,有 95.4% 涵蓋了 μ。如果我還沒進行抽樣的話,那麼我有 95.4% 的機率會抽到展開的信賴區間涵蓋 μ 的 X̄ 值;但我進行抽樣後事已成定局,我的信賴區間要嘛有涵蓋 μ,要嘛沒有,雖然不知道有沒有,但我有 95.4% 的信心宣稱有,基於先前抽樣分佈的分析。
抽樣後的 X̄ 不再是隨機變數,所以原先的機率僅是信心水準的參考依據,而信心水準本身並不是機率。

本文同步發佈於 Matters
  • 如果喜歡我的文章,還請不吝❤️按下愛心】 、【👏拍手】、【追蹤】
  • 我平常更常在 instagram 發布短文,等內容累積到一定的量後才會整理出完整文章發布在這,也歡迎有興趣的讀者來逛:@study.msh
即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
32會員
9內容數
從數萬年前舊石器時代點燃的第一竄火苗,到20世紀衝出大氣層的第一艘火箭,人類是如何用自己的雙手將原始叢林構築成現今的世界?處在歷史洪流最前端的我們,欲知為何自己身在此地、未來將何去何從,勢必要回顧河流的路徑、探索知識的源頭、瀏覽科學的歷史,鑑往以知來。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我們做實驗的目的, 往往是想要量化「確定的不確定性 Certain Uncertainty」。 什麼是「不確定性 Uncertainty」? 其實就是無法透過控制各種變因來控制下來的現象。 在做實驗的時候, 就算你已經把實驗條件盡量控制一樣了, 其實實驗的結果每次還是會有一些差異。
Thumbnail
今天來談談我認為現代教會交換論歪風與靈恩騙局裡非常嚴重的現象,就是信心的問題。 「信心」跟「信」是不大一樣的東西,要先說清楚,信會有個對象,通常是某種論點、說法、事實、期待或人物、神明之類的東西,但信心多少有點強度計量的內含,例如我有80%的信心這種,但其實也無法絕對量化,總之是一種表示程度的名詞
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
隨因為推論統計邏輯明顯有問題 心理學實驗看到的 p value是 P(Data| Hyptohesis), 也就是假設成立的情況下拿到這樣的資料的機率 以下是大家常見的推論步驟: 先設一個虛無假設 (H0) 拿資料, 算 p value ( = P(Data | Hypothesis)
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
當你說出樂觀與保守的估計值後,一定有人會問落在這個範圍的機率為何?這時你可以根據過去統計資料來推算發生機率,沒有資料就用你自己的方法來推算發生的機率。 比如說:「 預估範為 200~500 萬,機率 90%,因為...,除此之外超出 500 萬機率是 8 %,低於 200 萬是 2 %。 」
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我們做實驗的目的, 往往是想要量化「確定的不確定性 Certain Uncertainty」。 什麼是「不確定性 Uncertainty」? 其實就是無法透過控制各種變因來控制下來的現象。 在做實驗的時候, 就算你已經把實驗條件盡量控制一樣了, 其實實驗的結果每次還是會有一些差異。
Thumbnail
今天來談談我認為現代教會交換論歪風與靈恩騙局裡非常嚴重的現象,就是信心的問題。 「信心」跟「信」是不大一樣的東西,要先說清楚,信會有個對象,通常是某種論點、說法、事實、期待或人物、神明之類的東西,但信心多少有點強度計量的內含,例如我有80%的信心這種,但其實也無法絕對量化,總之是一種表示程度的名詞
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
隨因為推論統計邏輯明顯有問題 心理學實驗看到的 p value是 P(Data| Hyptohesis), 也就是假設成立的情況下拿到這樣的資料的機率 以下是大家常見的推論步驟: 先設一個虛無假設 (H0) 拿資料, 算 p value ( = P(Data | Hypothesis)
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
當你說出樂觀與保守的估計值後,一定有人會問落在這個範圍的機率為何?這時你可以根據過去統計資料來推算發生機率,沒有資料就用你自己的方法來推算發生的機率。 比如說:「 預估範為 200~500 萬,機率 90%,因為...,除此之外超出 500 萬機率是 8 %,低於 200 萬是 2 %。 」
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。