「p值的陷阱」的陷阱

閱讀時間約 6 分鐘
別擔心,p值不會被淘汰!

這幾天陸續有朋友再次分享 p值的陷阱一文;原來作者有另篇文章說 p值已經被美國頂級期刊禁用,難怪該文又被瘋傳了一遍。如此茲事體大的事情,國內竟也就只有這篇文章在疾呼?這或許是因為我個人社群網絡的侷限。無論如何,這讓我非常仔細地重讀 p值的陷阱,並發現許多在 2016 年讀此文時沒注意的錯誤。當年或許想說 p值會被誤用,不是老生常談嗎?也就沒仔細看內文。先說結論:別擔心,如果你會貝氏方法,那很好,會加分;如果只熟練 p值(也就是頻率論統計,frequentist statistics),那也沒關係,它不會被淘汰,至少在自然科學領域如此(p值已經被美國頂級期刊禁用一文說的頂級期刊是政治學領域)。而對大部分同學而言,與其擔心 p值被淘汰,不如好好搞清楚甚麼是 null hypothesis,甚麼是 p值。如果連甚麼場合要用標準差,何時要用標準誤,都還一直搞錯,擔心 p值的命運會不會太杞人憂天了?

我認為 p值的陷阱本身有幾處陷阱(錯誤):

如果我們作了 20 個研究,這 20 個研究裡面,虛無假設都是對的,單獨的研究結果應該是不顯著。可是當我們作了 20 個統計檢定時,最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在 0.05,可是 20 個裡面最少有一個顯著的,或然率就不是 0.05,大概是 0.64。如果就報告這個顯著結果,這就是 cherry-picking。

這是一個錯誤的舉例。科學研究實務上,你就只會做 1 個研究,而不是做 20 個,再從中挑 1 個顯著的來報告。因此無論如何,你犯 Type I error 的機率,就是你的 p值。而如果你的試驗設計就是要做 20 個研究,那麼你的最終報告就會是這 20 個研究結果的整體統計推論,而不是從中挑 1 個結果來報告。"單做 1 個研究" 與 "做 20 個研究,看其中會不會有 1 個的結果不同" 是不一樣的兩件事情,後者是 meta-analysis,兩者的檢定方法與條件根本就不一樣。作者不應該把兩件不同的事情混為一談,從中說明 p值的陷阱。而該文所謂的 cherry-picking,牽涉的則是科學倫理,不是統計推論,請不要混淆,更不要因此貶低 p值的價值。

問題是假如容許或然性,這樣的推論方法還是對的嗎?舉一個例子:「若大樂透的開獎機制是完全隨機的,則每注中頭獎的機率很小,只有 1 / 13,980,000」,現在你中獎了,你能推論說大樂透開獎的機制不是隨機的嗎?p 值的問題,便是在於我們能不能夠因為 p 值很小,小到可能性很低,我們就用否定後件的方法來否定前件。

這是一個很糟糕的舉例。統計學講的是集體現象;你不會只用單一觀察值做統計推論。必須有多個樣本,從中得到平均值與標準誤。也就是說,你必須買很多次樂透,才能從中推論開講機制是否隨機。你不能因為只買 1 張樂透就中了,而去推論樂透開獎機制不隨機。等你買了 30 次,每次 1 張樂透,然後 30 次都中獎,再說不遲。統計學講的是集體現象,而非個體機遇。幸運中樂透是個體機遇,但樂透號碼是否隨機,則要從集體現象去探討;樣本數愈多,集體現象就愈鮮明。你不能用個體機遇去證明或否定集體現象,兩者根本是不同層次的事情。

如果虛無假設為真,那麼你的檢定是顯著的機率是 α = 0.05。但這其實不是我們作研究最想回答的問題;這個機率只告訴我們,如果你的虛無假設為真,有百分之五的機率,data 會跟它不合,但它沒有告訴我們虛無假設這個 model 為真的機率有多少,而這才是我們應該問的問題。

自然科學領域的研究邏輯講得是中性(neutral)。在統計推論上,虛無假設的 model 就是甚麼都沒有;沒有相關、沒有因果、沒有差異...。就這樣的邏輯而言,並不會有 model 為真的機率有多少的問題。在這裡,neutral model 是否為真,牽涉的是科學哲學,而非統計學。另外就是,現在科學界非常鮮明的趨勢是詳實報導 p值,而不是給星號;也不再以 α = 0.05 為絕對標準(那本來就沒甚麼道理,是漁翁和女士喝下午茶時決定的)。事實上,如果 p = 0.1,你還是可以宣稱顯著,如果願意承擔高達 10%錯誤機率的話。這在樣本取得困難,承擔 Type I error 的代價也不是那麼高的狀況之下,是可以容許的。相反地,如果犯 Type I error 的代價非常高,那麼就算 p = 0.01,我們也可能會接受 null hypothesis。我想,這才是應該被推廣的觀念,而不是「p值要被淘汰了」,說真的,那有點危言聳聽。

從我教學、帶研究生、審稿的經驗,p值的確常常被誤用,但被誤用是因為使用者的問題,而不是 p值本身。P值只在說明觀察到的現象屬於 null hypothesis 的機率為何,可是使用者經常忽略 null hypothesis 到底為何。舉例來說,簡單線性迴歸的 null hypothesis 是斜率為零。如果檢定結果,p值非常非常小,也就只是告訴你斜率為零的機率很小很小;所以我們可以推論斜率不等於零。但是我們不可因此推論解釋變數 x 很大程度地影響反應變數 y。x 有沒有大大地影響 y,要看 r-square。事實上,如果樣本數很大很大時,就算很平緩的斜率,模型的 r-square 只有 0.01 好了,也是有機會讓 p值變得顯著;但是你就不應該說 y 明顯受到 x 的影響(是有影響,因為拒絕了 null hypothesis,但不是那麼重要)。

生態學當然也會用到貝氏理論,我桌上就躺著數本生態數據應用貝氏統計的書。但是貝氏方法會不會統一天下呢?不會。貝氏方法與頻率論統計並非誰對誰錯不相容的兩派理論(像過去植群生態學界整體論與個體論就是你死我活的論戰),它們只是用不同邏輯在解析數據,兩個途徑是相輔相成,是融合的。你可以推廣貝氏方法,但不應該用錯誤的舉例指稱 p值有陷阱(它沒有,它只是被誤用)。正確做法應該是說,你的研究若只報導 p值是不夠的(甚至根本沒講 p值,只給星號),應該還要清楚交代樣本大小、分布(有無偏態、有無離群值)、標準誤、信賴區間(這其實還好,有標準誤就夠了);資訊愈充分,讀者愈能評價你的研究結果。如果說 p值有陷阱(被誤用),所以要禁用,真的就太超過了。
註:本文原於2018/1/28發佈在作者個人facebook
    6會員
    3Content count
    生態或環境議題常有許多不符合科學或生態學原理的論述。生態科學研究文獻則可能存在科學邏輯或統計分析方法謬誤,甚至有科學倫理問題。這個專題以討論環境議題的生態學面向,以及評述國內生態學研究文獻為主;期望國內的生態議題討論能更理性與就事論事,生態學科學研究則更精緻與完善。
    留言0
    查看全部
    發表第一個留言支持創作者!
    H-Jay的沙龍 的其他內容
    統計方法是生態學量化研究的重要工具。觀念不清、使用不慎,使分析結果貽笑大方就算了;若據以擴張解釋並影響決策,其後果就非同小可。最怕的是濫用統計工具,以期達到預設的研究結果,那就涉及科學態度與科學倫理了。 最常見的錯誤觀念是標準差、標準誤、以及邊際誤差混淆不清,卻不自知。
    統計方法是生態學量化研究的重要工具。觀念不清、使用不慎,使分析結果貽笑大方就算了;若據以擴張解釋並影響決策,其後果就非同小可。最怕的是濫用統計工具,以期達到預設的研究結果,那就涉及科學態度與科學倫理了。 最常見的錯誤觀念是標準差、標準誤、以及邊際誤差混淆不清,卻不自知。
    你可能也想看
    Thumbnail
    八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
    Thumbnail
    1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
    Thumbnail
    近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
    Thumbnail
    臺南市區的旅館眾多,但要找到高性價比的住宿並不容易。我們選擇入住康樂街上的道達旅店 D.D Hotel,因為它交通便利、提供飲料吧,讓消費者在炎熱的臺南回到旅館後可以解渴。文章內容包括房型介紹、設施評價以及旅遊資訊。
    Thumbnail
    酒香不怕巷子深,魚鮮不怕少饕客。「八串八 燒肉」,雖然隱身在小小的萬安街,但憑藉著料鮮味美,已漸漸闖出名聲,成為內行饕客珍藏的口袋名單。
    Thumbnail
    逛完甘川洞文化村後,也來到了午餐時間,不過對要吃什麼,實在是沒有什麼頭緒,決定就邊走邊看,想不到也就誤打誤撞,走進一間高C/P值的海鮮餐廳「멍기』,品嚐到鮮美的魚湯,來看看我們這次的邂逅吧。 。
    Thumbnail
    你是否曾突然感到一陣莫名的孤寂,就像是心室被抽了真空般的恐懼感? 你知道P世代是什麼嗎? 與600多年前的文藝復興又有何相似呢? 文章以自身經歷思考現代年輕人容易感到孤獨與無助的可能原因,以及可以如何擺脫困境。
    Thumbnail
    窗邊很空。轉頭對著朋友大喊:「快看!有帥哥!」的興致又回來了。
    Thumbnail
    你說,要先喜歡跑步,跑步才會喜歡你。
    Thumbnail
    有人說,男孩以後開車一定是那種開手感的。女孩認同;閉眼想像他故意急煞,開開副駕駛的玩笑。
    Thumbnail
    突然,另一陣女孩的歡愉的嘻笑雜進;原來那快樂,從頭就是兩人份。
    Thumbnail
    3月26日到現在,兩週了。距離男孩跟女孩和好。
    Thumbnail
    八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
    Thumbnail
    1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
    Thumbnail
    近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
    Thumbnail
    臺南市區的旅館眾多,但要找到高性價比的住宿並不容易。我們選擇入住康樂街上的道達旅店 D.D Hotel,因為它交通便利、提供飲料吧,讓消費者在炎熱的臺南回到旅館後可以解渴。文章內容包括房型介紹、設施評價以及旅遊資訊。
    Thumbnail
    酒香不怕巷子深,魚鮮不怕少饕客。「八串八 燒肉」,雖然隱身在小小的萬安街,但憑藉著料鮮味美,已漸漸闖出名聲,成為內行饕客珍藏的口袋名單。
    Thumbnail
    逛完甘川洞文化村後,也來到了午餐時間,不過對要吃什麼,實在是沒有什麼頭緒,決定就邊走邊看,想不到也就誤打誤撞,走進一間高C/P值的海鮮餐廳「멍기』,品嚐到鮮美的魚湯,來看看我們這次的邂逅吧。 。
    Thumbnail
    你是否曾突然感到一陣莫名的孤寂,就像是心室被抽了真空般的恐懼感? 你知道P世代是什麼嗎? 與600多年前的文藝復興又有何相似呢? 文章以自身經歷思考現代年輕人容易感到孤獨與無助的可能原因,以及可以如何擺脫困境。
    Thumbnail
    窗邊很空。轉頭對著朋友大喊:「快看!有帥哥!」的興致又回來了。
    Thumbnail
    你說,要先喜歡跑步,跑步才會喜歡你。
    Thumbnail
    有人說,男孩以後開車一定是那種開手感的。女孩認同;閉眼想像他故意急煞,開開副駕駛的玩笑。
    Thumbnail
    突然,另一陣女孩的歡愉的嘻笑雜進;原來那快樂,從頭就是兩人份。
    Thumbnail
    3月26日到現在,兩週了。距離男孩跟女孩和好。