「p值的陷阱」的陷阱

2024/12/17 更新2021/12/18 發佈閱讀 7 分鐘

別擔心，p值不會被淘汰！

這幾天陸續有朋友再次分享 p值的陷阱一文；原來作者有另篇文章說 p值已經被美國頂級期刊禁用，難怪該文又被瘋傳了一遍。如此茲事體大的事情，國內竟也就只有這篇文章在疾呼？這或許是因為我個人社群網絡的侷限。無論如何，這讓我非常仔細地重讀 p值的陷阱，並發現許多在 2016 年讀此文時沒注意的錯誤。當年或許想說 p值會被誤用，不是老生常談嗎？也就沒仔細看內文。先說結論：別擔心，如果你會貝氏方法，那很好，會加分；如果只熟練 p值(也就是頻率論統計，frequentist statistics)，那也沒關係，它不會被淘汰，至少在自然科學領域如此(p值已經被美國頂級期刊禁用一文說的頂級期刊是政治學領域)。而對大部分同學而言，與其擔心 p值被淘汰，不如好好搞清楚甚麼是 null hypothesis，甚麼是 p值。如果連甚麼場合要用標準差，何時要用標準誤，都還一直搞錯，擔心 p值的命運會不會太杞人憂天了？

我認為 p值的陷阱本身有幾處陷阱(錯誤)：

「如果我們作了 20 個研究，這 20 個研究裡面，虛無假設都是對的，單獨的研究結果應該是不顯著。可是當我們作了 20 個統計檢定時，最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在 0.05，可是 20 個裡面最少有一個顯著的，或然率就不是 0.05，大概是 0.64。如果就報告這個顯著結果，這就是 cherry-picking。」

這是一個錯誤的舉例。科學研究實務上，你就只會做 1 個研究，而不是做 20 個，再從中挑 1 個顯著的來報告。因此無論如何，你犯 Type I error 的機率，就是你的 p值。而如果你的試驗設計就是要做 20 個研究，那麼你的最終報告就會是這 20 個研究結果的整體統計推論，而不是從中挑 1 個結果來報告。"單做 1 個研究" 與 "做 20 個研究，看其中會不會有 1 個的結果不同" 是不一樣的兩件事情，後者是 meta-analysis，兩者的檢定方法與條件根本就不一樣。作者不應該把兩件不同的事情混為一談，從中說明 p值的陷阱。而該文所謂的 cherry-picking，牽涉的則是科學倫理，不是統計推論，請不要混淆，更不要因此貶低 p值的價值。

「問題是假如容許或然性，這樣的推論方法還是對的嗎？舉一個例子：「若大樂透的開獎機制是完全隨機的，則每注中頭獎的機率很小，只有 1 / 13,980,000」，現在你中獎了，你能推論說大樂透開獎的機制不是隨機的嗎？p 值的問題，便是在於我們能不能夠因為 p 值很小，小到可能性很低，我們就用否定後件的方法來否定前件。」

這是一個很糟糕的舉例。統計學講的是集體現象；你不會只用單一觀察值做統計推論。必須有多個樣本，從中得到平均值與標準誤。也就是說，你必須買很多次樂透，才能從中推論開講機制是否隨機。你不能因為只買 1 張樂透就中了，而去推論樂透開獎機制不隨機。等你買了 30 次，每次 1 張樂透，然後 30 次都中獎，再說不遲。統計學講的是集體現象，而非個體機遇。幸運中樂透是個體機遇，但樂透號碼是否隨機，則要從集體現象去探討；樣本數愈多，集體現象就愈鮮明。你不能用個體機遇去證明或否定集體現象，兩者根本是不同層次的事情。

「如果虛無假設為真，那麼你的檢定是顯著的機率是 α = 0.05。但這其實不是我們作研究最想回答的問題；這個機率只告訴我們，如果你的虛無假設為真，有百分之五的機率，data 會跟它不合，但它沒有告訴我們虛無假設這個 model 為真的機率有多少，而這才是我們應該問的問題。」

自然科學領域的研究邏輯講得是中性(neutral)。在統計推論上，虛無假設的 model 就是甚麼都沒有；沒有相關、沒有因果、沒有差異...。就這樣的邏輯而言，並不會有 model 為真的機率有多少的問題。在這裡，neutral model 是否為真，牽涉的是科學哲學，而非統計學。另外就是，現在科學界非常鮮明的趨勢是詳實報導 p值，而不是給星號；也不再以 α = 0.05 為絕對標準(那本來就沒甚麼道理，是漁翁和女士喝下午茶時決定的)。事實上，如果 p = 0.1，你還是可以宣稱顯著，如果願意承擔高達 10%錯誤機率的話。這在樣本取得困難，承擔 Type I error 的代價也不是那麼高的狀況之下，是可以容許的。相反地，如果犯 Type I error 的代價非常高，那麼就算 p = 0.01，我們也可能會接受 null hypothesis。我想，這才是應該被推廣的觀念，而不是「p值要被淘汰了」，說真的，那有點危言聳聽。

從我教學、帶研究生、審稿的經驗，p值的確常常被誤用，但被誤用是因為使用者的問題，而不是 p值本身。P值只在說明觀察到的現象屬於 null hypothesis 的機率為何，可是使用者經常忽略 null hypothesis 到底為何。舉例來說，簡單線性迴歸的 null hypothesis 是斜率為零。如果檢定結果，p值非常非常小，也就只是告訴你斜率為零的機率很小很小；所以我們可以推論斜率不等於零。但是我們不可因此推論解釋變數 x 很大程度地影響反應變數 y。x 有沒有大大地影響 y，要看 r-square。事實上，如果樣本數很大很大時，就算很平緩的斜率，模型的 r-square 只有 0.01 好了，也是有機會讓 p值變得顯著；但是你就不應該說 y 明顯受到 x 的影響(是有影響，因為拒絕了 null hypothesis，但不是那麼重要)。

生態學當然也會用到貝氏理論，我桌上就躺著數本生態數據應用貝氏統計的書。但是貝氏方法會不會統一天下呢？不會。貝氏方法與頻率論統計並非誰對誰錯不相容的兩派理論(像過去植群生態學界整體論與個體論就是你死我活的論戰)，它們只是用不同邏輯在解析數據，兩個途徑是相輔相成，是融合的。你可以推廣貝氏方法，但不應該用錯誤的舉例指稱 p值有陷阱(它沒有，它只是被誤用)。正確做法應該是說，你的研究若只報導 p值是不夠的(甚至根本沒講 p值，只給星號)，應該還要清楚交代樣本大小、分布(有無偏態、有無離群值)、標準誤、信賴區間(這其實還好，有標準誤就夠了)；資訊愈充分，讀者愈能評價你的研究結果。如果說 p值有陷阱(被誤用)，所以要禁用，真的就太超過了。

註：本文原於2018/1/28發佈在作者個人facebook

H-Jay的沙龍生態議題與科學研究評論

留言

留言分享你的想法！

H-Jay的沙龍

7會員

3內容數

生態或環境議題常有許多不符合科學或生態學原理的論述。生態科學研究文獻則可能存在科學邏輯或統計分析方法謬誤，甚至有科學倫理問題。這個專題以討論環境議題的生態學面向，以及評述國內生態學研究文獻為主；期望國內的生態議題討論能更理性與就事論事，生態學科學研究則更精緻與完善。

你可能也想看

剝洋蔥

「還可以啦」即是平庸的時代：中間長尾的消失與新商業模式

生產力爆發帶來的過剩，會讓過去的「還可以啦」成為最低標準。市場需求對於出類拔萃、獨一無二的需求還是存在，但是對於那些價格高度敏感，或是只需要穩定、便宜、還可以啦的需求端來說，AI 正在迅速取代這部分的供給，中間長尾的服務提供者被 AI 替換。

#AI#商業模式#創作者經濟

2025/12/21

剝洋蔥

「還可以啦」即是平庸的時代：中間長尾的消失與新商業模式

#AI#商業模式#創作者經濟

2025/12/21

統計急救箱的沙龍

統計急救箱─抽樣分布與中央極限定理（一）

　　這幾天因為選舉民調的關係，統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞，例如抽樣、區間、抽樣誤差等等。　　其實這些通通都是推論統計的觀念，網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼，應該不需要我野人獻曝了。　　不過如果真的想要了

2023/11/19

2023/11/19

班傑明．迪斯雷利：「世界上有三種謊言：謊言、該死的謊言，和統計數字。」由於我們未知的東西可能至關重大，踏錯一步很可能導致理解不當或預測錯誤，對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮，但必須抱持謹慎。唯一的解決之道就是瞭解風險，時時警覺。

2023/08/28

2023/08/28

【以上這些關於鬼扯的概念有個共通點，說話者的目的都是要說服或打動聽者，而不是為了讓他們更接近事實，而採取的方法或是積極地混淆聽者，抑或是亂掰一通來掩蓋自己對這事情根本不甚了解。有些作者便將鬼扯分成說服型與閃躲型，前者意在示自己能力或權威，後者則避免直接回應自己不願多談的問題。】【還記得古德哈特定律

2023/02/23

2023/02/23

如何從摘要快速審視研究文獻的合理性? 其實研究文獻的摘要約已經涵蓋60-70%以上的重點多數時候已經足以讓我們知道文章目的、簡單統計方式、結果分析的合理性與可信度如何讀完一篇品質良好的摘要通常可以知道下列幾個問題

2022/11/23

2022/11/23

接續先前本專題文章《經驗與預測，Bayesian Inference》，本貓貓見到一部不錯的影片來介紹 Bayes factor:對此，貓貓希望簡單地整理一下，補足兩種表示間的推論過程。

2022/04/28

2022/04/28

統計學吳迪一、檢定步驟 1.設立H0:虛無假設（希望拒絕的對象）設立H1:對立假設（希望接受的對象） 2.選定檢定統計量 3.決定顯著水準及拒絕域 4.計算檢定統計量 5.當落入拒絕域時，則拒絕H0，反之則拒絕H1 二 1.型一錯誤 afa= p (拒絕H0/H0為真) 2.型二錯誤

2021/11/09

蘇佑諭的沙龍

學習統計學假設檢定01

2021/11/09

cshowme的沙龍

BMJ小小統計問題（5）：什麼是P value？

BMJ小小統計問題（5）：什麼是P value？ British Medical Journal，英國醫學期刊（簡稱 BMJ），創始於1840年，在醫學研究領域享有盛名。本系列精選BMJ所發行之3百多題Statistical Question，採用中英對照有興趣的朋友們可進行回答。各題都有詳細說明。

#匯東華#醫學統計#統計分析

2021/09/05

cshowme的沙龍

BMJ小小統計問題（5）：什麼是P value？

#匯東華#醫學統計#統計分析

2021/09/05

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News