別擔心,p值不會被淘汰! 這幾天陸續有朋友再次分享
p值的陷阱一文;原來作者有另篇文章說
p值已經被美國頂級期刊禁用,難怪該文又被瘋傳了一遍。如此茲事體大的事情,國內竟也就只有這篇文章在疾呼?這或許是因為我個人社群網絡的侷限。無論如何,這讓我非常仔細地重讀
p值的陷阱,並發現許多在 2016 年讀此文時沒注意的錯誤。當年或許想說 p值會被誤用,不是老生常談嗎?也就沒仔細看內文。先說結論:別擔心,如果你會貝氏方法,那很好,會加分;如果只熟練 p值(也就是頻率論統計,frequentist statistics),那也沒關係,它不會被淘汰,至少在自然科學領域如此(
p值已經被美國頂級期刊禁用一文說的頂級期刊是政治學領域)。而對大部分同學而言,與其擔心 p值被淘汰,不如好好搞清楚甚麼是 null hypothesis,甚麼是 p值。如果連甚麼場合要用標準差,何時要用標準誤,都還一直搞錯,擔心 p值的命運會不會太杞人憂天了? 我認為
p值的陷阱本身有幾處陷阱(錯誤): 「
如果我們作了 20 個研究,這 20 個研究裡面,虛無假設都是對的,單獨的研究結果應該是不顯著。可是當我們作了 20 個統計檢定時,最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在 0.05,可是 20 個裡面最少有一個顯著的,或然率就不是 0.05,大概是 0.64。如果就報告這個顯著結果,這就是 cherry-picking。」 這是一個錯誤的舉例。科學研究實務上,你就只會做 1 個研究,而不是做 20 個,再從中挑 1 個顯著的來報告。因此無論如何,你犯 Type I error 的機率,就是你的 p值。而如果你的試驗設計就是要做 20 個研究,那麼你的最終報告就會是這 20 個研究結果的整體統計推論,而不是從中挑 1 個結果來報告。"單做 1 個研究" 與 "做 20 個研究,看其中會不會有 1 個的結果不同" 是不一樣的兩件事情,後者是 meta-analysis,兩者的檢定方法與條件根本就不一樣。作者不應該把兩件不同的事情混為一談,從中說明 p值的陷阱。而該文所謂的 cherry-picking,牽涉的則是科學倫理,不是統計推論,請不要混淆,更不要因此貶低 p值的價值。 「
問題是假如容許或然性,這樣的推論方法還是對的嗎?舉一個例子:「若大樂透的開獎機制是完全隨機的,則每注中頭獎的機率很小,只有 1 / 13,980,000」,現在你中獎了,你能推論說大樂透開獎的機制不是隨機的嗎?p 值的問題,便是在於我們能不能夠因為 p 值很小,小到可能性很低,我們就用否定後件的方法來否定前件。」 這是一個很糟糕的舉例。統計學講的是集體現象;你不會只用單一觀察值做統計推論。必須有多個樣本,從中得到平均值與標準誤。也就是說,你必須買很多次樂透,才能從中推論開講機制是否隨機。你不能因為只買 1 張樂透就中了,而去推論樂透開獎機制不隨機。等你買了 30 次,每次 1 張樂透,然後 30 次都中獎,再說不遲。統計學講的是集體現象,而非個體機遇。幸運中樂透是個體機遇,但樂透號碼是否隨機,則要從集體現象去探討;樣本數愈多,集體現象就愈鮮明。你不能用個體機遇去證明或否定集體現象,兩者根本是不同層次的事情。 「
如果虛無假設為真,那麼你的檢定是顯著的機率是 α = 0.05。但這其實不是我們作研究最想回答的問題;這個機率只告訴我們,如果你的虛無假設為真,有百分之五的機率,data 會跟它不合,但它沒有告訴我們虛無假設這個 model 為真的機率有多少,而這才是我們應該問的問題。」 自然科學領域的研究邏輯講得是中性(neutral)。在統計推論上,虛無假設的 model 就是甚麼都沒有;沒有相關、沒有因果、沒有差異...。就這樣的邏輯而言,並不會有 model 為真的機率有多少的問題。在這裡,neutral model 是否為真,牽涉的是科學哲學,而非統計學。另外就是,現在科學界非常鮮明的趨勢是詳實報導 p值,而不是給星號;也不再以 α = 0.05 為絕對標準(那本來就沒甚麼道理,是
漁翁和女士喝下午茶時決定的)。事實上,如果 p = 0.1,你還是可以宣稱顯著,如果願意承擔高達 10%錯誤機率的話。這在樣本取得困難,承擔 Type I error 的代價也不是那麼高的狀況之下,是可以容許的。相反地,如果犯 Type I error 的代價非常高,那麼就算 p = 0.01,我們也可能會接受 null hypothesis。我想,這才是應該被推廣的觀念,而不是「p值要被淘汰了」,說真的,那有點危言聳聽。 從我教學、帶研究生、審稿的經驗,p值的確常常被誤用,但被誤用是因為使用者的問題,而不是 p值本身。P值只在說明觀察到的現象屬於 null hypothesis 的機率為何,可是使用者經常忽略 null hypothesis 到底為何。舉例來說,簡單線性迴歸的 null hypothesis 是斜率為零。如果檢定結果,p值非常非常小,也就只是告訴你斜率為零的機率很小很小;所以我們可以推論斜率不等於零。但是我們不可因此推論解釋變數 x 很大程度地影響反應變數 y。x 有沒有大大地影響 y,要看 r-square。事實上,如果樣本數很大很大時,就算很平緩的斜率,模型的 r-square 只有 0.01 好了,也是有機會讓 p值變得顯著;但是你就不應該說 y 明顯受到 x 的影響(是有影響,因為拒絕了 null hypothesis,但不是那麼重要)。 生態學當然也會用到貝氏理論,我桌上就躺著數本生態數據應用貝氏統計的書。但是貝氏方法會不會統一天下呢?不會。貝氏方法與頻率論統計並非誰對誰錯不相容的兩派理論(像過去植群生態學界整體論與個體論就是你死我活的論戰),它們只是用不同邏輯在解析數據,兩個途徑是相輔相成,是融合的。你可以推廣貝氏方法,但不應該用錯誤的舉例指稱 p值有陷阱(它沒有,它只是被誤用)。正確做法應該是說,你的研究若只報導 p值是不夠的(甚至根本沒講 p值,只給星號),應該還要清楚交代樣本大小、分布(有無偏態、有無離群值)、標準誤、信賴區間(這其實還好,有標準誤就夠了);資訊愈充分,讀者愈能評價你的研究結果。如果說 p值有陷阱(被誤用),所以要禁用,真的就太超過了。
註:本文原於2018/1/28發佈在作者個人facebook