這是很多統計學初學者會有的疑惑。大部分的統計數據呈現,像是人口調查、民調等等,都會利用抽樣來推估真實值,並在抽樣的結果附近加上一段信賴區間,可以簡單理解為誤差範圍(如果涉及統計推論則會呈現 p 值)。那個範圍會有他對應的信心水準,但很多人將其理解為「真實值落在這個範圍內的機率」,然而這其實是錯誤的。
我在網路上幫高中生解題多年(雖然課綱現在把信賴區間刪掉了),發現造成這樣錯誤解讀的根本原因是大家對於「抽樣分佈(sample distribution)」,也就是 X̄(樣本平均)的機率分布的理解不正確導致。
▍什麼是抽樣分佈?
假設今天我們對一個母體(比方說全台灣的人口)進行抽樣,母體的平均和標準差是 μ 和 σ(這兩個我們當然不知道是多少),且每次抽樣取 n 個樣本。第一次抽樣之後得到 n 個數據,然後算它的平均,就會得到第一次的樣本平均 X̄₁,然後再進行第二次抽樣,也是抽 n 個數據,得到第二次的 X̄₂,以此類推,直到從母體抽出 n 個樣本的所有可能都抽完。很明顯每一次的 X̄ 幾乎都不同,因為每次抽樣得到的樣本是隨機的。
注意一下 n 不是抽樣的次數,是每次抽樣的樣本數。總共抽樣幾次得看母體有多大,有多少可能抽出的組合,造成各種可能的 X̄ 值,最後當所有的 X̄ 值都抽到了,還有抽到這個值的次數,就可以知道得到各個 X̄ 值發生的機率,所以 X̄ 是隨機變數。我們將這個機率分布畫出來,橫軸是 X̄ 的各種可能值,縱軸是它發生的機率,這就是「抽樣分佈」。
統計學家分析這個分佈的性質得到了「中央極限定理(central limit theorem, CLT)」,證明有點複雜所以通常教科書只會寫以下結論:
- 抽樣分佈的平均正好是母體平均 μ。
- 抽樣分佈的標準差是母體標準差 σ 除以 √n。
- 如果 n 夠大的話,抽樣分佈會接近常態分佈。
稍微分析一下這結果:第三條說這分佈會呈現出鐘型曲線,可見這分佈的平均大概在中央最高峰處,而且第一條告訴你它等於母體平均,也就是說樣本平均和母體平均的機率超高,這相當直觀;第二條則說明了抽出的樣本平均之間的差異程度,比單獨觀測母體的各個值的差異程度還小(因為 n 是正整數),這也很好理解,畢竟你觀察了更多值,只是證明就是個大工程了。
原本母體的數據可以是隨便一個分佈(高中的話就是拿二項分布當母體),但 X̄ 的機率分佈是常態分佈,兩者完全不同概念!你可能想說,我們怎麼可能抽完母體的所有抽樣可能?如果母體是全台灣 2300 萬人,我每次抽樣 10 人,抽樣的可能數(C 23000000 取 10)大概是 1.14×10⁶⁷,這最好抽的完?
不是的,我們現在根本還沒實際進行抽樣,以上都是在抽樣前,對於抽樣這件事所進行的事先分析,當你看清了這點,你應該就想通抽樣分佈是什麼了。
抽樣分佈是實際抽樣前對 X̄ 的機率分析,並由中央極限定理說明其性質。
▍信賴區間和信心水準
之所以做以上的分析是要讓你了解 X̄ 的行為,接下來你只需要進行一次抽樣得到一個 X̄,就能利用抽樣分佈來告訴你這數據有多可靠。那你抽樣出的樣本平均有沒有等於母體平均呢?答案是:要嘛有,要嘛沒有嘛!
那信賴區間(confidence interval)是什麼?它是你得到的 X̄ 所展開的一定範圍,畢竟除非你的籤運好的離譜,不然你應該不會很有自信地聲稱你的 X̄ 就是母體的平均 μ,所以要展開一段區間作為誤差範圍,保守一點地說 μ 在這裡面。這個範圍要取多大是你決定,如果取的超大,你自然就有更高的信心來宣稱這範圍涵蓋 μ,這個信心程度就是所謂的信心水準(confidence level)。
當然你也可以取到讓整個信賴區間涵蓋所有 X̄ 的可能值,然後說你有 100% 的信心這會涵蓋 μ,那這就只是個廢話。就好像你想知道台灣人平均年齡,抽了一個樣本出來後說平均年齡在 0 到 1000 歲之間,那其實跟沒說一樣。所以信賴區間能夠取的越小越好,但越小的話信心水準肯定會下降,也不能取太小,要自己在這兩者間權衡。
信賴區間越小越好,與此同時,其信心水準要越高越好。
那信心水準怎麼算,總不是靠感覺來說自己多有信心吧?
從中央極限定理知道抽樣分佈是常態分佈,為了方便查表,統計學常把數據標準化,將原始數據扣掉平均,再除以標準差,這樣平均就平移到 0,標準差則伸縮成 1,這東西就是「z 分數(z-score)」。中央極限定理也已經告訴你抽樣分佈的平均和標準差是多少,則公式如下:
當機率分佈橫軸的隨機變數標準化後,一切就好辦了,例如如果我想求抽樣得到的 X̄ 換算成 z 分數後,這個值落在中央的 μ(其值為 0)往左右展開一個標準差(加減 1)的機率,那就將這個常態分佈的機率函數積分,算 ±1 之間的曲線下面積,相較於曲線下的總面積(其實就是 1,因為是機率函數)的比值。
由於平均和標準差的標準化,這個常態分佈的函數是固定的,那就可以建出固定的表,以後只要查表就能知道你要的曲線下面積。
而我們可以發現,在 ±1 之間(加減 1 個標準差)的曲線下面積是 0.682、±2(加減 2 個標準差)的則是 0.954、±3(加減 3 個標準差)的則是 0.997,這一般被稱為「68-95-99.7 的經驗法則(empirical rule)」因為這比例早在 18 世紀初就被觀察到,而不是計算出來的。
以加減 2 個標準差為例,用數學式表達的話就是:
接著將 z 分數的公式代入移項,讓 μ 在中間:
這告訴我們:如果我們抽樣的話,抽出來的 X̄ 加減 2 個標準差的區間內涵蓋 μ 的機率是 95.4%。這是機率,但再次提醒,現在還只是抽樣前進行的分析。
現在實際進行抽樣,會得到一個固定的 X̄ 值,此時 X̄ 不再是隨機變數,它展開的信賴區間有沒有涵蓋 μ 已變成既定事實(儘管你不知道到底有沒有),而 μ 也不是隨機變數,哪來的機率可言?
我們只能回顧抽樣分佈,得知對於所有可能的 X̄ 值,有 95.4% 涵蓋了 μ。如果我還沒進行抽樣的話,那麼我有 95.4% 的機率會抽到展開的信賴區間涵蓋 μ 的 X̄ 值;但我進行抽樣後事已成定局,我的信賴區間要嘛有涵蓋 μ,要嘛沒有,雖然不知道有沒有,但我有 95.4% 的信心宣稱有,基於先前抽樣分佈的分析。
抽樣後的 X̄ 不再是隨機變數,所以原先的機率僅是信心水準的參考依據,而信心水準本身並不是機率。
本文同步發佈於 Matters。
- 如果喜歡我的文章,還請不吝【❤️按下愛心】 、【👏拍手】、【➕追蹤】!
- 我平常更常在 instagram 發布短文,等內容累積到一定的量後才會整理出完整文章發布在這,也歡迎有興趣的讀者來逛:@study.msh