「p值的陷阱」的陷阱

更新於 發佈於 閱讀時間約 7 分鐘

別擔心,p值不會被淘汰!

這幾天陸續有朋友再次分享 p值的陷阱一文;原來作者有另篇文章說 p值已經被美國頂級期刊禁用,難怪該文又被瘋傳了一遍。如此茲事體大的事情,國內竟也就只有這篇文章在疾呼?這或許是因為我個人社群網絡的侷限。無論如何,這讓我非常仔細地重讀 p值的陷阱,並發現許多在 2016 年讀此文時沒注意的錯誤。當年或許想說 p值會被誤用,不是老生常談嗎?也就沒仔細看內文。先說結論:別擔心,如果你會貝氏方法,那很好,會加分;如果只熟練 p值(也就是頻率論統計,frequentist statistics),那也沒關係,它不會被淘汰,至少在自然科學領域如此(p值已經被美國頂級期刊禁用一文說的頂級期刊是政治學領域)。而對大部分同學而言,與其擔心 p值被淘汰,不如好好搞清楚甚麼是 null hypothesis,甚麼是 p值。如果連甚麼場合要用標準差,何時要用標準誤,都還一直搞錯,擔心 p值的命運會不會太杞人憂天了?

我認為 p值的陷阱本身有幾處陷阱(錯誤):

如果我們作了 20 個研究,這 20 個研究裡面,虛無假設都是對的,單獨的研究結果應該是不顯著。可是當我們作了 20 個統計檢定時,最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在 0.05,可是 20 個裡面最少有一個顯著的,或然率就不是 0.05,大概是 0.64。如果就報告這個顯著結果,這就是 cherry-picking。

這是一個錯誤的舉例。科學研究實務上,你就只會做 1 個研究,而不是做 20 個,再從中挑 1 個顯著的來報告。因此無論如何,你犯 Type I error 的機率,就是你的 p值。而如果你的試驗設計就是要做 20 個研究,那麼你的最終報告就會是這 20 個研究結果的整體統計推論,而不是從中挑 1 個結果來報告。"單做 1 個研究" 與 "做 20 個研究,看其中會不會有 1 個的結果不同" 是不一樣的兩件事情,後者是 meta-analysis,兩者的檢定方法與條件根本就不一樣。作者不應該把兩件不同的事情混為一談,從中說明 p值的陷阱。而該文所謂的 cherry-picking,牽涉的則是科學倫理,不是統計推論,請不要混淆,更不要因此貶低 p值的價值。

問題是假如容許或然性,這樣的推論方法還是對的嗎?舉一個例子:「若大樂透的開獎機制是完全隨機的,則每注中頭獎的機率很小,只有 1 / 13,980,000」,現在你中獎了,你能推論說大樂透開獎的機制不是隨機的嗎?p 值的問題,便是在於我們能不能夠因為 p 值很小,小到可能性很低,我們就用否定後件的方法來否定前件。

這是一個很糟糕的舉例。統計學講的是集體現象;你不會只用單一觀察值做統計推論。必須有多個樣本,從中得到平均值與標準誤。也就是說,你必須買很多次樂透,才能從中推論開講機制是否隨機。你不能因為只買 1 張樂透就中了,而去推論樂透開獎機制不隨機。等你買了 30 次,每次 1 張樂透,然後 30 次都中獎,再說不遲。統計學講的是集體現象,而非個體機遇。幸運中樂透是個體機遇,但樂透號碼是否隨機,則要從集體現象去探討;樣本數愈多,集體現象就愈鮮明。你不能用個體機遇去證明或否定集體現象,兩者根本是不同層次的事情。

如果虛無假設為真,那麼你的檢定是顯著的機率是 α = 0.05。但這其實不是我們作研究最想回答的問題;這個機率只告訴我們,如果你的虛無假設為真,有百分之五的機率,data 會跟它不合,但它沒有告訴我們虛無假設這個 model 為真的機率有多少,而這才是我們應該問的問題。

自然科學領域的研究邏輯講得是中性(neutral)。在統計推論上,虛無假設的 model 就是甚麼都沒有;沒有相關、沒有因果、沒有差異...。就這樣的邏輯而言,並不會有 model 為真的機率有多少的問題。在這裡,neutral model 是否為真,牽涉的是科學哲學,而非統計學。另外就是,現在科學界非常鮮明的趨勢是詳實報導 p值,而不是給星號;也不再以 α = 0.05 為絕對標準(那本來就沒甚麼道理,是漁翁和女士喝下午茶時決定的)。事實上,如果 p = 0.1,你還是可以宣稱顯著,如果願意承擔高達 10%錯誤機率的話。這在樣本取得困難,承擔 Type I error 的代價也不是那麼高的狀況之下,是可以容許的。相反地,如果犯 Type I error 的代價非常高,那麼就算 p = 0.01,我們也可能會接受 null hypothesis。我想,這才是應該被推廣的觀念,而不是「p值要被淘汰了」,說真的,那有點危言聳聽。

從我教學、帶研究生、審稿的經驗,p值的確常常被誤用,但被誤用是因為使用者的問題,而不是 p值本身。P值只在說明觀察到的現象屬於 null hypothesis 的機率為何,可是使用者經常忽略 null hypothesis 到底為何。舉例來說,簡單線性迴歸的 null hypothesis 是斜率為零。如果檢定結果,p值非常非常小,也就只是告訴你斜率為零的機率很小很小;所以我們可以推論斜率不等於零。但是我們不可因此推論解釋變數 x 很大程度地影響反應變數 y。x 有沒有大大地影響 y,要看 r-square。事實上,如果樣本數很大很大時,就算很平緩的斜率,模型的 r-square 只有 0.01 好了,也是有機會讓 p值變得顯著;但是你就不應該說 y 明顯受到 x 的影響(是有影響,因為拒絕了 null hypothesis,但不是那麼重要)。

生態學當然也會用到貝氏理論,我桌上就躺著數本生態數據應用貝氏統計的書。但是貝氏方法會不會統一天下呢?不會。貝氏方法與頻率論統計並非誰對誰錯不相容的兩派理論(像過去植群生態學界整體論與個體論就是你死我活的論戰),它們只是用不同邏輯在解析數據,兩個途徑是相輔相成,是融合的。你可以推廣貝氏方法,但不應該用錯誤的舉例指稱 p值有陷阱(它沒有,它只是被誤用)。正確做法應該是說,你的研究若只報導 p值是不夠的(甚至根本沒講 p值,只給星號),應該還要清楚交代樣本大小、分布(有無偏態、有無離群值)、標準誤、信賴區間(這其實還好,有標準誤就夠了);資訊愈充分,讀者愈能評價你的研究結果。如果說 p值有陷阱(被誤用),所以要禁用,真的就太超過了。


註:本文原於2018/1/28發佈在作者個人facebook

留言
avatar-img
留言分享你的想法!
avatar-img
H-Jay的沙龍
7會員
3內容數
生態或環境議題常有許多不符合科學或生態學原理的論述。生態科學研究文獻則可能存在科學邏輯或統計分析方法謬誤,甚至有科學倫理問題。這個專題以討論環境議題的生態學面向,以及評述國內生態學研究文獻為主;期望國內的生態議題討論能更理性與就事論事,生態學科學研究則更精緻與完善。
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
  這幾天因為選舉民調的關係,統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞,例如抽樣、區間、抽樣誤差等等。   其實這些通通都是推論統計的觀念,網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼,應該不需要我野人獻曝了。   不過如果真的想要了
Thumbnail
  這幾天因為選舉民調的關係,統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞,例如抽樣、區間、抽樣誤差等等。   其實這些通通都是推論統計的觀念,網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼,應該不需要我野人獻曝了。   不過如果真的想要了
Thumbnail
班傑明.迪斯雷利:「世界上有三種謊言:謊言、該死的謊言,和統計數字。」 由於我們未知的東西可能至關重大,踏錯一步很可能導致理解不當或預測錯誤,對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮,但必須抱持謹慎。唯一的解決之道就是瞭解風險,時時警覺。
Thumbnail
班傑明.迪斯雷利:「世界上有三種謊言:謊言、該死的謊言,和統計數字。」 由於我們未知的東西可能至關重大,踏錯一步很可能導致理解不當或預測錯誤,對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮,但必須抱持謹慎。唯一的解決之道就是瞭解風險,時時警覺。
Thumbnail
【以上這些關於鬼扯的概念有個共通點,說話者的目的都是要說服或打動聽者,而不是為了讓他們更接近事實,而採取的方法或是積極地混淆聽者,抑或是亂掰一通來掩蓋自己對這事情根本不甚了解。有些作者便將鬼扯分成說服型與閃躲型,前者意在示自己能力或權威,後者則避免直接回應自己不願多談的問題。】 【還記得古德哈特定律
Thumbnail
【以上這些關於鬼扯的概念有個共通點,說話者的目的都是要說服或打動聽者,而不是為了讓他們更接近事實,而採取的方法或是積極地混淆聽者,抑或是亂掰一通來掩蓋自己對這事情根本不甚了解。有些作者便將鬼扯分成說服型與閃躲型,前者意在示自己能力或權威,後者則避免直接回應自己不願多談的問題。】 【還記得古德哈特定律
Thumbnail
如何從摘要快速審視研究文獻的合理性? 其實研究文獻的摘要約已經涵蓋60-70%以上的重點 多數時候已經足以讓我們知道文章目的、簡單統計方式、結果分析的合理性與可信度如何 讀完一篇品質良好的摘要通常可以知道下列幾個問題
Thumbnail
如何從摘要快速審視研究文獻的合理性? 其實研究文獻的摘要約已經涵蓋60-70%以上的重點 多數時候已經足以讓我們知道文章目的、簡單統計方式、結果分析的合理性與可信度如何 讀完一篇品質良好的摘要通常可以知道下列幾個問題
Thumbnail
接續先前本專題文章《經驗與預測,Bayesian Inference》,本貓貓見到一部不錯的影片來介紹 Bayes factor:對此,貓貓希望簡單地整理一下,補足兩種表示間的推論過程。
Thumbnail
接續先前本專題文章《經驗與預測,Bayesian Inference》,本貓貓見到一部不錯的影片來介紹 Bayes factor:對此,貓貓希望簡單地整理一下,補足兩種表示間的推論過程。
Thumbnail
統計學 吳迪 一、檢定步驟 1.設立H0:虛無假設 (希望拒絕的對象)   設立H1:對立假設 (希望接受的對象) 2.選定檢定統計量 3.決定顯著水準及拒絕域 4.計算檢定統計量 5.當落入拒絕域時,則拒絕H0,反之則拒絕H1 二 1.型一錯誤 afa= p (拒絕H0/H0為真) 2.型二錯誤
Thumbnail
統計學 吳迪 一、檢定步驟 1.設立H0:虛無假設 (希望拒絕的對象)   設立H1:對立假設 (希望接受的對象) 2.選定檢定統計量 3.決定顯著水準及拒絕域 4.計算檢定統計量 5.當落入拒絕域時,則拒絕H0,反之則拒絕H1 二 1.型一錯誤 afa= p (拒絕H0/H0為真) 2.型二錯誤
Thumbnail
BMJ小小統計問題(5):什麼是P value? British Medical Journal,英國醫學期刊(簡稱 BMJ),創始於1840年,在醫學研究領域享有盛名。本系列精選BMJ所發行之3百多題Statistical Question,採用中英對照有興趣的朋友們可進行回答。各題都有詳細說明。
Thumbnail
BMJ小小統計問題(5):什麼是P value? British Medical Journal,英國醫學期刊(簡稱 BMJ),創始於1840年,在醫學研究領域享有盛名。本系列精選BMJ所發行之3百多題Statistical Question,採用中英對照有興趣的朋友們可進行回答。各題都有詳細說明。
Thumbnail
如果我們把太多注意力擺在眼前看得見的患者,卻沒注意背後更大的數字,那麼我們可能會把所有資源花在解決一小部分的問題,少救很多條人命。這原則適用於任何資源有限故須用在刀口的地方。 你只需要兩個神奇工具就能扭轉制失真型直覺偏誤:比對與除法。
Thumbnail
如果我們把太多注意力擺在眼前看得見的患者,卻沒注意背後更大的數字,那麼我們可能會把所有資源花在解決一小部分的問題,少救很多條人命。這原則適用於任何資源有限故須用在刀口的地方。 你只需要兩個神奇工具就能扭轉制失真型直覺偏誤:比對與除法。
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
Thumbnail
為什麼網際網路開放、高等教育普及、新聞媒體蓬勃發展,卻讓當代社會鄙視專業、陷入前所未有的反智思潮?本書將帶我們反思「專業」的意義,爬梳專家與公民的關係在當代何以崩解,並找回民主社會中兩者應有的相處之道。
Thumbnail
為什麼網際網路開放、高等教育普及、新聞媒體蓬勃發展,卻讓當代社會鄙視專業、陷入前所未有的反智思潮?本書將帶我們反思「專業」的意義,爬梳專家與公民的關係在當代何以崩解,並找回民主社會中兩者應有的相處之道。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News