這篇文章我們將會以不同層面對假設檢定進行探討,討論在做假設檢定時的邏輯、概念以及應注意事項,並給予充分的例子,在最後則會帶大家一起思考假設檢定時的判斷依據 — p值,所引發的一些爭議點。
此外,這篇文章涵蓋比較進階的統計內容,原先是在必修課上準備給成大統計系大四學生的報告,已經預先大家有相關的先備知識了,因此若是初學者或對統計還不熟悉者,閱讀上多少會遇到些困難。但若是對統計已經擁有一定基礎的人,相信閱讀這篇文章能夠讓你有許多收穫,並且思考我們平時在做的統計的本質。
為什麼要做假設檢定?
學習一項新的知識或工具時,我們都會想知道這項知識能夠如何被應用,或是學會這個之後,這項工具可以怎麼幫助我們解決問題吧!而假設檢定或統計的美妙之處就是,但凡有一點點統計概念的人都能懂得使用假設檢定,知道怎麼使用這項工具來解決課本上的問題,因此統計可以說是一個相當容易入門的學科。
不過,大多數人也就只停留在這個階段 — 只會應用而不明白概念。很少人能夠真的明白檢定的真正概念以及為什麼要這麼做。然而概念以及為什麼要這麼做,卻是現實生活中我們會遇到的最棘手的問題。這是假設檢定另一個迷人的地方,概念比應用更值得玩味也重要多了。
有一個問題需要回答
為什麼要做假設檢定呢?原因也很淺顯,就是我們有一個問題需要回答,而這個問題,通常都是一個很明確的問題,例如降血壓藥物有沒有效果?或溫度對實驗結果有沒有影響?這些問題的答案都非常明確,有或沒有、是或不是,這才是假設檢定能夠解決的問題。
若你只是有一筆資料,就說想要做假設檢定,那假設檢定其實沒有辦法幫到你,你必須先提出一個明確的問題,有或沒有、是或不是,才能接續進行假設檢定。
除此之外,假設檢定中把問題定義清楚也很重要,這會影響到我們如何定義虛無假設及對立假設。以降血壓藥物有沒有效果這個問題為例,請問什麼叫做有效果?每個人對有效的定義或許相差甚遠。一般的統計學家以及民眾可能會認為,只要高血壓病患吃了降血壓藥後血壓有下降那就代表有效。
但具有醫學背景的專業人士可能會跟你說:「不對喔!降血壓藥有效指的應該是,高血壓病患吃完降血壓藥之後,他的收縮壓應該降到120以下,舒張壓降到80以下,這樣才能叫有效。」這時候有效的定義就不是那麼清晰了,不同的人對有效的定義可能不同。
因此做假設檢定時,也必須先確認有效的定義為何,才能進行假設檢定。假設檢定就是一個這樣嚴謹的工具,是用來解決一個明確且定義清楚的問題的工具。
區分觀測到的差異是來自於抽樣誤差還是母體本身的差異
假設檢定這項工具是被設計用來,區分觀測到的差異是來自於抽樣誤差還是母體本身的差異。
當我們進行降血壓藥物是否有效的實驗及檢定時,若我們所觀測到的樣本資料顯示,病患吃完降血壓藥物後,平均血壓從200下降至180,這20的差異,真的是因為降血壓藥有效導致的嗎?(來自母體本身的差異)還是僅僅是因為這組病患的血壓就是這麼剛好的降低了?(純粹來自抽樣誤差)這時我們就需要使用檢定來得到一個客觀的答案。
但假設檢定也不是真的能區分出抽樣誤差以及母體本身的差異,假設檢定只是告訴我們:「如果虛無假設為真(降血壓藥無效),也就是觀察到的誤差完全來自抽樣誤差,平均血壓從200下降至180的可能性有多大。」
若這個可能性足夠小,我們就會猜測,這個差異來自抽樣誤差的機率太低了,所以這個誤差很可能是來自母體本身的差異,也就代表我們推斷降血壓藥是有效的。
p值的定義
p值的定義其實相當耐人尋味,很多人都沒有真正搞懂p值的定義,就連許多從統計系出身的學生也不清楚,甚至有人聲稱 — 若你能夠講出p值的定義,那就代表你有學會統計學了。但其實p值倒也沒那麼難懂,只是沒那麼直觀而已。
p值所代表的意思其實是 — 當虛無假設為真,觀察到手上這筆樣本資料或更極端的資料的機率。
以降血壓藥為例,當我們觀察到病人的平均血壓從200下降至180時,我們去做假設檢定,這時候會得到一個p值,這個p值代表的意義是,如果虛無假設為真(降血壓藥無效),平均血壓從200下降至180以及比180更低的數字的機率。這就是p值。
如何解釋假設檢定的結果?
假設檢定的解釋也是假設檢定中非常值得探討的主題。經過假設檢定後,如果結果顯著,我們會做出拒絕虛無假設的結論,這完全沒有問題。但問題是,若結果不顯著,我們則會做出不拒絕虛無假設的結論。
不拒絕虛無假設?總覺得聽起來有點怪怪的,你不拒絕虛無假設…那…不代表你接受它嗎?這之中真的有什麼差異嗎?為什麼教授或其他統計學家總是告誡我們,你只能夠說不拒絕虛無假設,但不能說你接收虛無假設?
至少對筆者而言,在我過去大學三年的學習經驗,我一直沒有真正搞懂這之間的差異。由於這個原因,這次做這個主題特別對此思考及研究了一番,在終於想通之後,希望能夠向更多人解釋這之間的差異,用例子以及統計證據說服你,為什麼我們不該說接受虛無假設。
尚萬強的例子
大家都有看過悲慘世界裡那個因為偷了一塊麵包而被抓去關的尚萬強吧!試想一下若我們是身處在當時的法官,在那個風雨飄搖、飢寒交迫的法國大革命前夕,尚萬強下有妻小,又有父親母親需要照顧,實在走投無路了因此去偷了一塊麵包,當我們面對這樣的案件時,我們會怎麼反應?
站在現在的角度看過去,或許我們會跟他說:「我明白你的處境,生活實在不易,因此不會給你判刑或去批判你的行為。」但這並不代表我們會說:「你很棒!做得好!」
大家一定都有注意到著之間的差距吧!這就是不拒絕虛無假設和接受虛無假設的差別,不拒絕和接受,確實是兩件完全不同的事,不拒絕相對於接受是一個更被動的表現。我們會選擇說「我不會去批判你的行為。」但不會說「你很棒!做得好!」
更統計的方法解釋
不知道上面的例子有沒有成功說服你?如果你還是認為沒差或沒辦法被說服,不妨讓我們以更統計的角度來解釋。
以附圖為例。若我們已經收集好資料準備假設檢定了,且我們將虛無假設定為母體平均=0,母體分配如黑線所示,至於真實的母體分配,雖然現實中我們是不會知道的,但我們暫且先假定真實的母體分配及平均如粉紅線所示。
這時我們再去做假設檢定,會得到一個p值。若p值足夠小,便會做出拒絕虛無假設的結論。這邊完全沒有問題,因為如圖所示,真實狀況確實不符合虛無假設。
但若p值大於顯著水準,這時的結論應該是?不拒絕虛無假設還是接受虛無假設?你能說是接受虛無假設嗎?顯然不行!因為從圖上就可以看出真實狀況就是不符合虛無假設的,頂多只能說我們沒辦法拒絕虛無假設。
另外一種情形是,如圖所示,虛無假設和真實狀況非常接近,真的只有很微小的差距了。在這個情況下做檢定,我們很大概率會得到,p值大於顯著水準的結果,這時該下什麼結論?不拒絕虛無假設還是接受虛無假設?
顯然的,你也不能說接受虛無假設,你永遠都不應該下接受虛無假設的結論,因為真實狀況還是不等於虛無假設,而且虛無假設永遠都會是錯的。
因為在連續變數的假設下,真實的狀況,永遠都不會和虛無假設剛好相等,這樣發生的狀況的機率是0。即使它們很接近,也永遠都不會相等。這也是為什麼我們不能說接受虛無假設,因為既然虛無假設永遠都是錯的,去接受它並不合理。
樣本數如何影響檢定結果
或許許多人不知道,樣本數對假設檢定的結果也有很大的影響。除了大家一般耳熟能詳的,樣本數下降可以使犯型二誤的機率下降之外,還有一些特別且有趣的性質!
大樣本暴力、小樣本不顯著
大樣本暴力指的是當我們收集到的樣本數夠多時,不論怎麼做檢定,結果都會是顯著的,而小樣本不顯著則是,當樣本數太少時,不論怎麼做檢定,結果都會是不顯著的。
以The Lady Tasting Tea的故事為例: 在英國劍橋的某個午後,有位女士聲稱,把茶加到牛奶里,和把牛奶加到茶里,兩種方法調出來的下午茶喝起來味道不同。而著名的統計學家Ronald Fisher為了知道這位女士到底是不是真的判斷的出差別,便沖泡幾杯下午茶請女士品嘗,並將女士的回答記下,看看是否真的有準確命中,再以Fisher Exact Test來檢驗。
而這時,有趣的是,Fisher沖泡的下午茶的數量其實是會影響結果的!若Fisher沖泡了5杯下午茶,女士猜中了其中4杯的下午茶的製作順序,該女士已經有高達80%的命中機率了。
但若Fisher使用Fisher Exact Test來做檢定,得到的結果卻會是不顯著的。這是由於樣本數太少的關係,檢定將難以拒絕虛無假設。不過女士都已經猜中4杯了呀!難道要5杯全中才算判斷的出差別嗎?
不過如果Fisher不是準備5杯而是一次準備50杯請女士品嘗,而女士猜中了其中的35杯,這時女士的命中率為70%,命中率比上面的例子低了10%。但這時再用Fisher Exact Test檢定女士是不是判斷的出差別,得到的結果將會是顯著的!檢定會告訴你該女士能夠分辨得出差別。
這就是所謂的大樣本暴力、小樣本不顯著,這個狀況很特殊吧?非常耐人尋味,若不相信可以自己實際計算看看喔!
多重比較謬誤
在做多重檢定時大家常犯的錯誤,進而引導出的錯誤結論就是多重比較謬誤。多重比較謬誤指當我們進行多次檢定時,犯型一誤的機率會快速膨脹,而我們沒有對膨脹的型一誤進行調整而得到錯誤結論的狀況。
一般我們在做檢定時都會設定一個顯著水準,也就是α,這是我們能夠容許的犯型一誤的最大機率,通常是0.05或更小。然而在做多個檢定時,每一個檢定都代表了0.05的犯錯機率,全部檢定加總起來,其中至少有一個檢定犯型一誤的機率就會快速膨脹。
例如當我們進行10次檢定,儘管每一次檢定的α都設成0.05,但最終,在整個檢定過程中至少有一個檢定犯了型一誤的機率卻會變成0.64。
這樣的狀況其實不算罕見,比較著名的例子像是1992年瑞典的研究。當時瑞典有個研究試圖找出電源線對健康的影響,他們收集了高壓電源線300公尺範圍內所有住戶的樣本長達25年,對超過800種疾病一一檢查發生率的統計差異。
他們發現幼年白血病的發病率是一般人的4倍,還推動政府為此採取行動。然而,當我們比對超過800種疾病時,其中有某幾組犯了型一誤,也就是得到顯著的結果的機率其實非常高。果不其然,後續的研究再也沒有發現電源線和幼年白血病的相關及因果關係。
Bonferroni correction
Bonferroni correction是一個我們進行多重檢定時常會使用的校正方法,它能夠藉由限制每一項檢定的α進而達成不讓至少有一個檢定犯型一誤的機率(Familywise error rate)膨脹到超出我們可容忍的範圍。
Bonferroni correction的校正方法就是將能夠容忍的犯型一誤的機率除上檢定次數。例如我對於這項研究所能容忍的犯型一誤的機率為0.05,而我在整個過程中共做了10次檢定,那我對於每一個檢定的α則必須調整為0.005(0.05/10),而不是0.05,把每一個檢定的顯著水準降低,如此能夠確保至少有一個檢定犯型一誤的機率(Familywise error rate)不會超出我們能夠容忍的範圍(0.05),也能夠避免犯了多重比較謬誤。
這是一個相當保守的方法
但Bonferroni correction當然也是有一些缺點的,Bonferroni correction是一個相當保守的方法,從上面的例子便可以看到,若我整個研究中要做10次檢定,每一項檢定的顯著水準便要調整成0.005,這使得所有的檢定都變得非常嚴格且保守,也可能導致原先應該顯著的檢定變成不顯著。
犯型二誤的機率上升
犯型一誤的機率和犯型二誤的機率就是一個trade-off,若我們使用Bonferroni correction將做每一個檢定時犯型一誤的機率調低,不可避免的就是犯下型二誤的機率會上升。
可能變相懲罰深入的研究
Bonferroni correction也有可能某種程度上的變相懲罰深入的研究。假設兩名研究者同時進行一模一樣的研究,第一名研究者使用新陳代謝的 7 項指標進行分析,第二名研究者除了 7 項指標外,還額外分析了 4 項生理指標,3項心理指標,更根據運動習慣分層分析。
在這樣的情況下,若兩人都選擇使用Bonferroni correction,第二名研究者很可能因為整個研究的檢定次數較多,每一次檢定的α必須調得更小,使得14次檢定均無法發現達統計顯著的結果,而無法順利發表結果。
相反的,第一名研究者卻有可能因為檢定次數較少,進而得到顯著的結果並發表他們的研究成果。一模一樣的研究,卻僅僅因為研究主題的總檢定次數不同而有截然不同的結果。若以兩篇文章來做比較,第二篇文章除主要的研究主軸外,還剖析了受試者詳細的生理指標資訊。第二篇提供了較多的資訊,在領域貢獻上,是比第一篇要來的多的,卻因為了 Bonferroni correction的關係,而無法順利發表。
p值的爭議
接下來將會介紹到p值的爭議,是本文的另一個重點!!~~
目前為止,很多期刊都會以p值來當作是否接受論文發表的門檻,畢竟研究結論總得是顯著的,也就是說p值得足夠小,才代表有了新發現,才能夠被刊登在期刊上,對吧?但在近來科學界p值卻引起了一些不小的爭議,有統計學家聲稱這是科學的統計學危機,還有期刊決定之後不再使用p值作為判斷是否刊登論文的依據,甚至有人宣稱 — p值已死。這究竟是怎麼一回事呢?
p值已死?
p值的命題邏輯
這一切還要從p值的概念說起,p值的概念似乎就是命題邏輯的借用 — 若P則Q,非P則非Q;如果是人,那他就會死,如果他不會死那他就不是人;如果降血壓藥是有效的,那服用後的病患的血壓會下降,如果服用後的病患血壓沒有下降,那降血壓藥就是沒效的。聽起來非常合邏輯吧!在這套推論系統下,爭議點究竟在哪邊呢?
問題在於,統計上使用假設檢定的過程中是存在或然性的,也就是這個推論中存在有不確定的因素。統計上p值的推論應該是,「如果降血壓藥是有效的,那服用後的病患的血壓很有可能會下降,如果服用後的病患血壓沒有下降,那降血壓藥很有可能就是沒效的。」這一切並不像前面的命題邏輯中的推論一般那麼的理所當然。
這樣子的推論會有什麼問題呢?試想一下,如果我今天想要檢驗大樂透是不是隨機的,如果大樂透是隨機的,一個人的中獎機率是1/100,000,000。
若今天我為了檢驗大樂透是不是隨機的因此去買了一張彩卷,而且我又很幸運的中獎了!
這時,我能夠藉由,如果大樂透是隨機的,我會中獎機率實在太低,然後推論出大樂透並不是隨機的嗎?似乎不太正確吧?
另一個相仿的例子是,起源的爭論。關於人類以及地球的起源,其實還是有非常多人相信是由上帝所創造的。
這便是因為,在自然的環境下,要演化出一個人,有如此複雜且精密的大腦、協調一致身體構造…,這樣的機率有多低?在自然的環境下,要產生地球這樣的環境,距離太陽的位置恰恰好、有水又有氧氣…,符合所有生物生存的基本條件,這樣的機率有多低?
這或許就不是1/100,000,000而是1/100,000,000,000甚至更小,那我們能夠因為這件事發生的機率太低就說這件事是不正確的嗎?是不是又有點怪怪的?但很多創造論者就是依據這樣子的推論而認為創造論是真實的。這邊並不是要爭辯創造論是對還是錯,又或是宣稱p值的邏輯是錯誤的,只是希望藉由這些例子,提醒大家在使用p值來做結論時,確實是有一些需要注意的地方。
p值告訴你什麼、沒有告訴你什麼
從p值的定義來看,p值究竟告訴我們什麼?p值告訴我們的是,如果虛無假設是對的,你「觀察到這筆資料或更極端的資料」的機率有多少。而p值從來都沒有告訴你,「虛無假設是對的」的機率有多少,又或「研究假設是對的」的機率有多少。
但很多研究者卻一直都是以「觀察到這筆資料或更極端的資料」的機率來推論「虛無假設是對的」的機率是多少。
這邊的思考非常抽象,舉實例會比較清晰一點,同樣舉大樂透為例,這樣的推論就好像是以「觀察到我中大樂透」的機率,來推論「大樂透是隨機」的機率。
應該可以很清楚地感覺出,這兩個並不是同一件事吧!那使用這樣子的方式做推論究竟會有什麼問題呢?其中最大的問題就是這讓我們錯估了拒絕H0時犯錯的機率。當我們在作檢定時,我們都會設定一個顯著水準α,這代表了我們能容許犯型一誤的最大機率α = P(Test=+| H0),也意味著當虛無假設為真,我們觀察到的資料和虛無假設不合而拒絕H0的機率。
然而,很多時候我們真正想知道的,或我們認為應該當作判斷標準的犯錯機率,是當我們拒絕H0時,虛無假設實際上是對的的機率。這個機率是P(H0 | Test=+) — 當我們拒絕H0,實際上虛無假設為真的機率。
以大樂透的例子來比較兩者的差別就是,α代表當大樂透為完全隨機,我中大樂透的機率;P(H0 | Test=+)則是,當我中大樂透時,大樂透為完全隨機的機率。
顯然很多時候,我們真正想知道或認可為犯錯機率的是後者而不是前者吧?這才更直接的表示了我們做了錯誤的結論的機率,單純的使用α而不注意拒絕H0時虛無假設為真的機率,很可能導致我們做出了錯誤的結論。
而這個機率P(H0 | Test=+)的計算需要使用Bayesian的方法,並不是透過傳統的Frequentist的方法計算。也因為這個緣故,有些統計學家認為再接下來幾年,統計學界將會面臨改變,Bayesian會越來越備受到重視。
因為使用p值來衡量衡量研究可能的風險時,我們只能知道 — 「虛無假設為真時,我們觀察到的資料和虛無假設不合而拒絕H0的機率。」而它並沒辦法告訴我們大多數研究者真正好奇或想計算的 — 「當我們拒絕H0,實際上虛無假設為真的機率。」
但同樣的,這邊我並不是要說用p值做決策是錯的,畢竟長久以來我們的商業決策或期刊發表、新藥的審核,都是使用p值來當作標準。而在這麼多年下來,也沒有遭遇非常重大的危機,一切都是馬照跑、舞照跳,但只是希望透過這個機會和大家分享一下p值的邏輯,以及是不是有些地方是值得我們思考、注意的。