沒想到從過年前就被各種專案進度追殺到現在,竟然停更兩個月了....
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧!
為什麼在前一篇當中要花這麼多力氣去了解「假設母體平均數為u時」不同數值區間的出現機率是多少呢?這跟我們從觀察樣本推論母體有什麼關係?
答案是我們要根據機率來猜測母體是不是真的如我們所推測的那樣。這樣講起來很抽象,從一個具體的生活例子來看會比較容易理解。
在許多的遊戲當中都會用骰子當作一種隨機的道具,是因為我們理論上一個公正的骰子擲出各個面的機率都是一樣的。假如我們手邊有一個常見的6面骰,有兩個人靠手上的骰子玩遊戲。在這一局遊戲當中,某甲總共擲了25次骰子,總共得到3次的六點;某乙擲出31次骰子,總共得到22次的六點。
這時候你得到一個資訊顯示某甲與某乙其中一個人作弊,你認為會是誰呢?
在這個例子裏面,一般人都會不假思索地認為某乙比較有作弊的嫌疑。為什麼呢?
答案滿明顯的,因為某甲得到六點的機率是12%,而某乙得到六點的機率則大約是71%。一般來說,我們都會認為一顆公正的六面骰,得到六點的機率大約為16.7%(也就是六分之一)。這麼一比較起來,某乙得到六點的機率簡直高得離譜。
如果講得更清楚一些,這整段話應該要這樣描述:「理論上,如果丟骰子得到六點的機率是16.7%,那麼在這一局遊戲中,有71%都得到六點的狀況是非常不容易出現的事情。」
現在我們把這段話換成統計上的說法,它會變成這樣:
「理論上,若母體平均數為u,在單次抽樣當中得到樣本平均為x的機率極小,此時會認為母體平均數可能不是u。」
我們需要釐清一下在在丟骰子的例子當中,不同的名詞應該怎麼跟上面這句話做對照。
母體平均u,指的是「某乙的骰子出現六點的機率」。由於我們不知道他的骰子真正的機率為何,所以我們預設上會先假設是公正的骰子,也就是16.7%。而單次抽樣的樣本平均x,指的就是這一局遊戲裡面丟骰子得到六點的機率。在上述例子中的某乙身上,就是71%。
然後因為某乙這次丟骰子出現的結果(71%),和理論上的16.7%相差實在太多,因此會認為母體平均(也就是某乙的骰子出現六點的機率)實際上可能並不是16.7%,也就是說這顆骰子並不是公正的骰子。
要注意的是,我們從來不會說某乙得到71%的六點是「不可能」的!因為即使機率非常非常非常小,一顆公正的骰子丟31次,得到71%六點的機率都不會是0對吧?所以單就機率上來說,我們不能夠因為發生機率很小,就說這件事情不可能出現,我們只能夠說「比起這個機率很小的狀況,我們認為這骰子不公正的可能性是比較大的。」
上面的過程,其實就是「統計檢定」這個概念的基本邏輯。即使我們沒辦法直接確定母體的平均數,但我們可以知道當母體平均數如同我們假設時,得到現在觀察結果的機率非常小。然而即使如此,我們還是得到這個觀察結果了,那就可以說有兩個可能:1. 我運氣太好或者太差,得到一個很難看到的結果。2. 母體平均數其實不是我假設的那樣,從真正的母體平均數中我得到現在觀察結果的機率應該更大一些。
這個邏輯在科學上被稱為否證邏輯,也有人稱其為證偽法。它的特點是,我們不是去證明「母體的平均數為u」,例如我們在上面的例子裡不是去證明「某乙的骰子丟出六點的機率為71%」;而是去否定母體的平均數為u這件事,所以會說「某乙的骰子丟出六點的機率不太可能是16.7%」。這是因為我們永遠不可能知道母體的平均數(也就是某乙的骰子丟出六點的機率到底是多少。套句我的統計老師的話:「這只有上帝會知道。」),所以我們反過來用不斷否定它的其他可能性來「逼近」它的真實值。
在上面的描述裡面,我們都只會說「這個機率很小」這種模糊不清的話。但在科學研究上面我們不能夠允許這樣說。因為「機率很小」其實是一種主觀判定,例如有些人覺得發生某件事的機會是20%就很小了,但有些人認為5%才是小的。這樣一來,到底怎麼樣的機率,我們才能說「母體平均可能不是假設的那樣」呢?
所以科學界對於怎樣的機率是小的,會有一套大致上公認的標準。這個魔法數字就是0.05,也就是5%。
一般的社會科學研究,都會認為「當假設母體為u時,我們得到現在觀察結果的機率不足5%,那麼就可以合理的認為母體平均數並不是u。」
我們再次用這面這張圖當作例子。
在一個常態分布的圖形上,圖中紅線標示出的範圍表示「當母體平均數為u時,有95%的機會得到這個範圍內的數據。」那反過來說,黃色部分就是「當母體平均數為u時,僅有5%的機會得到這範圍內的數據。」
上面提到的5%標準,指的就是黃色的線段了。
現在來看圖上面標記出的藍色「觀察結果1」,在橫軸上的位置還被包含在紅色的95%區間內(所以黃色線段上面寫它的位置在95%內)。因此,假設母體平均數為u,而我們得到了這次的觀察結果,我們會說這個結果發生的機會並不是很小,沒有充分的理由懷疑母體平均數不是u。
有一個需要特別提的點是,這個5%標準是人為訂定的,也可以當成是一種社會科學研究者之間的不成文默契 [*1]。事實上,在一些特別的情況下,也會有人把這個「怎樣算是機率很小」的標準訂得更為寬鬆或者嚴格。在不同的學門當中,也可能採用不一樣的標準。所以雖然5%好像是個魔法數字一樣,但其實不是那麼舉世皆然的標準喔!
上面這一串描述實在是太囉嗦了,其實這些步驟都可以有一些特別的統計名詞來指稱。現在我們來複習一下剛剛發生了什麼事,順便一一定義這些名詞,這樣以後看統計課本就會知道這些名詞在講什麼鬼東西了。
首先,由於我們不知道母體平均數是多少,所以我們要先假設母體平均數是u (自己決定的某個定值),這個動作被稱為「訂定虛無假設」,統計學符號為H0。而與虛無假設互斥的另一種狀況,就被稱為「對立假設」[*2],統計學符號為H1。
以上面的丟骰子例子來說,我們一開始預設了某乙的骰子是公正的,因此虛無假設與對立假設分別是:
虛無假設 (H0):某乙的骰子丟出六點的機率為16.7%。
對立假設 (H1):某乙的骰子丟出六點的機率不為16.7%。
其次,我們根據這16.7%的平均值來畫出一個常態的抽樣分布圖(如同上一篇文章所述,我們還需要標準差才能畫出來,但我們這裡先忽略這件事,之後會提到怎麼處理),然後看看某乙得到的71%在橫軸上的位置。
當71%位於這個常態分布圖的95%區間之外(也就是上圖的紅色區間之外、黃色區間之內),就表示這件事情發生的機率太小。此時有一個統計術語來描述這件事,叫做「觀察值與母體平均理論值之間有顯著差異」,簡稱為「差異達顯著」。
當差異達到顯著時,我們傾向於認為虛無假設不正確,這件事情被稱為「拒絕 (reject) 虛無假設」。
那如果71%的觀察值結果實際上落在95%的紅色線段之內,我們就會說此結果不顯著,不拒絕虛無假設。
上面這整個過程,就被稱為「統計上的假設檢定」,也就是用來檢驗虛無假設到底該不該被拒絕的過程。
下面這張圖用圖解的方式描述了統計檢定的過程。
到此為止,就是統計檢定的基本概念,同時也就是所謂推論統計的基礎囉!
接下來的許多推論統計都是奠基在這個觀念之上發展出來的,通常都是為了解決特定的問題而被發明出來的技術。例如前面也有提到,當我們不知道母體標準差的時候,要怎麼畫出抽樣分布呢?這就是下一個主題了。
忙碌的日子感覺會持續下去,希望在忙碌之餘還是可以繼續這系列的文章啊~
[*1]: 所以社會科學家到底為什麼這麼喜歡5%這個數字?有一種說法是其實只是方便 。這是因為以前在做假設檢定的時候,電腦還不發達,當時的科學家都用手在計算的。而有一個對當代統計學有重大貢獻的學者叫做Fisher,他做了一張表讓大家對照不同的發生機率對應到X軸上的什麼值,其中有一個點是95%的發生機率。基於方便大家就這麼用下來了。對這部分描述有興趣的讀者,可以參閱Fields (2017) 的Discovering statistics using IBM SPSS statistics (5th ed.) 一書中的3.2.3段落。
[*2]: 很多人會不知道虛無假設和對立假設怎麼區分。一個很簡單的分辨方法是,虛無假設是可以透過統計來推翻的假設,但對立假設沒辦法。仔細想想本文的例子,我可以推翻「骰子得到六點的機率是16.7%」,但卻沒辦法推翻或者證明「骰子得到六點的機率不是16.7%」對吧?
本文所用圖片當中的素材來自於https://www.flaticon.com,由juicy_fish創作。