「p值的陷阱」的陷阱

更新於 2024/12/17閱讀時間約 6 分鐘
別擔心,p值不會被淘汰!

這幾天陸續有朋友再次分享 p值的陷阱一文;原來作者有另篇文章說 p值已經被美國頂級期刊禁用,難怪該文又被瘋傳了一遍。如此茲事體大的事情,國內竟也就只有這篇文章在疾呼?這或許是因為我個人社群網絡的侷限。無論如何,這讓我非常仔細地重讀 p值的陷阱,並發現許多在 2016 年讀此文時沒注意的錯誤。當年或許想說 p值會被誤用,不是老生常談嗎?也就沒仔細看內文。先說結論:別擔心,如果你會貝氏方法,那很好,會加分;如果只熟練 p值(也就是頻率論統計,frequentist statistics),那也沒關係,它不會被淘汰,至少在自然科學領域如此(p值已經被美國頂級期刊禁用一文說的頂級期刊是政治學領域)。而對大部分同學而言,與其擔心 p值被淘汰,不如好好搞清楚甚麼是 null hypothesis,甚麼是 p值。如果連甚麼場合要用標準差,何時要用標準誤,都還一直搞錯,擔心 p值的命運會不會太杞人憂天了?

我認為 p值的陷阱本身有幾處陷阱(錯誤):

如果我們作了 20 個研究,這 20 個研究裡面,虛無假設都是對的,單獨的研究結果應該是不顯著。可是當我們作了 20 個統計檢定時,最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在 0.05,可是 20 個裡面最少有一個顯著的,或然率就不是 0.05,大概是 0.64。如果就報告這個顯著結果,這就是 cherry-picking。

這是一個錯誤的舉例。科學研究實務上,你就只會做 1 個研究,而不是做 20 個,再從中挑 1 個顯著的來報告。因此無論如何,你犯 Type I error 的機率,就是你的 p值。而如果你的試驗設計就是要做 20 個研究,那麼你的最終報告就會是這 20 個研究結果的整體統計推論,而不是從中挑 1 個結果來報告。"單做 1 個研究" 與 "做 20 個研究,看其中會不會有 1 個的結果不同" 是不一樣的兩件事情,後者是 meta-analysis,兩者的檢定方法與條件根本就不一樣。作者不應該把兩件不同的事情混為一談,從中說明 p值的陷阱。而該文所謂的 cherry-picking,牽涉的則是科學倫理,不是統計推論,請不要混淆,更不要因此貶低 p值的價值。

問題是假如容許或然性,這樣的推論方法還是對的嗎?舉一個例子:「若大樂透的開獎機制是完全隨機的,則每注中頭獎的機率很小,只有 1 / 13,980,000」,現在你中獎了,你能推論說大樂透開獎的機制不是隨機的嗎?p 值的問題,便是在於我們能不能夠因為 p 值很小,小到可能性很低,我們就用否定後件的方法來否定前件。

這是一個很糟糕的舉例。統計學講的是集體現象;你不會只用單一觀察值做統計推論。必須有多個樣本,從中得到平均值與標準誤。也就是說,你必須買很多次樂透,才能從中推論開講機制是否隨機。你不能因為只買 1 張樂透就中了,而去推論樂透開獎機制不隨機。等你買了 30 次,每次 1 張樂透,然後 30 次都中獎,再說不遲。統計學講的是集體現象,而非個體機遇。幸運中樂透是個體機遇,但樂透號碼是否隨機,則要從集體現象去探討;樣本數愈多,集體現象就愈鮮明。你不能用個體機遇去證明或否定集體現象,兩者根本是不同層次的事情。

如果虛無假設為真,那麼你的檢定是顯著的機率是 α = 0.05。但這其實不是我們作研究最想回答的問題;這個機率只告訴我們,如果你的虛無假設為真,有百分之五的機率,data 會跟它不合,但它沒有告訴我們虛無假設這個 model 為真的機率有多少,而這才是我們應該問的問題。

自然科學領域的研究邏輯講得是中性(neutral)。在統計推論上,虛無假設的 model 就是甚麼都沒有;沒有相關、沒有因果、沒有差異...。就這樣的邏輯而言,並不會有 model 為真的機率有多少的問題。在這裡,neutral model 是否為真,牽涉的是科學哲學,而非統計學。另外就是,現在科學界非常鮮明的趨勢是詳實報導 p值,而不是給星號;也不再以 α = 0.05 為絕對標準(那本來就沒甚麼道理,是漁翁和女士喝下午茶時決定的)。事實上,如果 p = 0.1,你還是可以宣稱顯著,如果願意承擔高達 10%錯誤機率的話。這在樣本取得困難,承擔 Type I error 的代價也不是那麼高的狀況之下,是可以容許的。相反地,如果犯 Type I error 的代價非常高,那麼就算 p = 0.01,我們也可能會接受 null hypothesis。我想,這才是應該被推廣的觀念,而不是「p值要被淘汰了」,說真的,那有點危言聳聽。

從我教學、帶研究生、審稿的經驗,p值的確常常被誤用,但被誤用是因為使用者的問題,而不是 p值本身。P值只在說明觀察到的現象屬於 null hypothesis 的機率為何,可是使用者經常忽略 null hypothesis 到底為何。舉例來說,簡單線性迴歸的 null hypothesis 是斜率為零。如果檢定結果,p值非常非常小,也就只是告訴你斜率為零的機率很小很小;所以我們可以推論斜率不等於零。但是我們不可因此推論解釋變數 x 很大程度地影響反應變數 y。x 有沒有大大地影響 y,要看 r-square。事實上,如果樣本數很大很大時,就算很平緩的斜率,模型的 r-square 只有 0.01 好了,也是有機會讓 p值變得顯著;但是你就不應該說 y 明顯受到 x 的影響(是有影響,因為拒絕了 null hypothesis,但不是那麼重要)。

生態學當然也會用到貝氏理論,我桌上就躺著數本生態數據應用貝氏統計的書。但是貝氏方法會不會統一天下呢?不會。貝氏方法與頻率論統計並非誰對誰錯不相容的兩派理論(像過去植群生態學界整體論與個體論就是你死我活的論戰),它們只是用不同邏輯在解析數據,兩個途徑是相輔相成,是融合的。你可以推廣貝氏方法,但不應該用錯誤的舉例指稱 p值有陷阱(它沒有,它只是被誤用)。正確做法應該是說,你的研究若只報導 p值是不夠的(甚至根本沒講 p值,只給星號),應該還要清楚交代樣本大小、分布(有無偏態、有無離群值)、標準誤、信賴區間(這其實還好,有標準誤就夠了);資訊愈充分,讀者愈能評價你的研究結果。如果說 p值有陷阱(被誤用),所以要禁用,真的就太超過了。
註:本文原於2018/1/28發佈在作者個人facebook
    avatar-img
    6會員
    3內容數
    生態或環境議題常有許多不符合科學或生態學原理的論述。生態科學研究文獻則可能存在科學邏輯或統計分析方法謬誤,甚至有科學倫理問題。這個專題以討論環境議題的生態學面向,以及評述國內生態學研究文獻為主;期望國內的生態議題討論能更理性與就事論事,生態學科學研究則更精緻與完善。
    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    H-Jay的沙龍 的其他內容
    統計方法是生態學量化研究的重要工具。觀念不清、使用不慎,使分析結果貽笑大方就算了;若據以擴張解釋並影響決策,其後果就非同小可。最怕的是濫用統計工具,以期達到預設的研究結果,那就涉及科學態度與科學倫理了。 最常見的錯誤觀念是標準差、標準誤、以及邊際誤差混淆不清,卻不自知。
    統計方法是生態學量化研究的重要工具。觀念不清、使用不慎,使分析結果貽笑大方就算了;若據以擴張解釋並影響決策,其後果就非同小可。最怕的是濫用統計工具,以期達到預設的研究結果,那就涉及科學態度與科學倫理了。 最常見的錯誤觀念是標準差、標準誤、以及邊際誤差混淆不清,卻不自知。
    你可能也想看
    Google News 追蹤
    Thumbnail
    徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
    Thumbnail
    隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
    Thumbnail
      在一次戴康尼斯協助賭場檢查自動洗牌機的缺陷後,賭場高管告訴他:「我們不喜歡你的結論,但我們相信它,這也是我們雇你來的原因。」賭場高管的說法很好地說明了人類大腦與機率之間的關係,我們通常不那樣思考事情,即便知道了也不太願意接受。但作為一個利益至上的機構,賭場謙遜地服從於機率,而這是常人難以做到的。
    Thumbnail
    這篇文章探討了價值投資的理論與現實之間的差距,並揭示了許多投資者面臨的倖存者偏差問題。通過分析股市的波動與資金流入的關聯,提醒投資者認清價值與價格之間的差異,並建議在股市中更注重短期的投機策略而非長期的價值投資。文章中還引用故事來強調投資過程中可能面臨的風險與困難,並鼓勵讀者理性選擇投資方式。
    Thumbnail
    除了「夠好」經驗法則和避免最壞結果的決策模式外,作者也特別強調機率和自然頻率的觀念。 我們在前面討論蒙提霍爾問題時已經稍微接觸過,接下來我們繼續進行更深入的探討。以下是作者舉的一個例子: 女性罹患乳癌的盛行機率是1%。 如果一名婦女有乳癌,那麼她檢驗為陽性的機率是90%。 倘若一名婦女沒有乳
    Thumbnail
    過去曾有一本書《免費!揭開零定價的獲利祕密》強調「免費」的概念與趨勢,以及在網路時代中以免費方式興起的商業模式。而William Poundstone在其著作《洞悉價格背後的心理戰Priceless: The Myth of Fair Value》中,也使用了一個章節探討「免費」模式對消費決策所產生
    Thumbnail
    在《洞悉價格背後的心理戰Priceless: The Myth of Fair Value》中,作者William Poundstone探索人類心理在價格判斷中的錯覺與偏誤,並揭示了其中複雜的機制和操縱手段。他說明了我們如何在價格決策上受到無意識的影響,並以多個心理學實驗案例呈現出我們經常掉入的思維
    Thumbnail
    在商業世界中,如何洞悉消費者進行決策時的心理是企業運行中重要課題。只有真正理解人性中錯綜複雜的盲點與偏見,我們才能提出貼近消費者內心的產品與行銷策略。在《洞悉價格背後的心理戰Priceless: The Myth of Fair Value》一書中,作者William Poundstone指出:人類
    Thumbnail
      前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
    隨因為推論統計邏輯明顯有問題 心理學實驗看到的 p value是 P(Data| Hyptohesis), 也就是假設成立的情況下拿到這樣的資料的機率 以下是大家常見的推論步驟: 先設一個虛無假設 (H0) 拿資料, 算 p value ( = P(Data | Hypothesis)
    Thumbnail
    接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
    Thumbnail
    "管過去它做了什麼"是絕對不對的觀念,不是只有政治而已,而是為人處世必須要小心萬劫不復的陷阱。 在數學或流行病統計上有一個叫做貝氏定理,應用在觀察一個人,則相當於觀察他失去信任的過程。
    Thumbnail
    徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
    Thumbnail
    隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
    Thumbnail
      在一次戴康尼斯協助賭場檢查自動洗牌機的缺陷後,賭場高管告訴他:「我們不喜歡你的結論,但我們相信它,這也是我們雇你來的原因。」賭場高管的說法很好地說明了人類大腦與機率之間的關係,我們通常不那樣思考事情,即便知道了也不太願意接受。但作為一個利益至上的機構,賭場謙遜地服從於機率,而這是常人難以做到的。
    Thumbnail
    這篇文章探討了價值投資的理論與現實之間的差距,並揭示了許多投資者面臨的倖存者偏差問題。通過分析股市的波動與資金流入的關聯,提醒投資者認清價值與價格之間的差異,並建議在股市中更注重短期的投機策略而非長期的價值投資。文章中還引用故事來強調投資過程中可能面臨的風險與困難,並鼓勵讀者理性選擇投資方式。
    Thumbnail
    除了「夠好」經驗法則和避免最壞結果的決策模式外,作者也特別強調機率和自然頻率的觀念。 我們在前面討論蒙提霍爾問題時已經稍微接觸過,接下來我們繼續進行更深入的探討。以下是作者舉的一個例子: 女性罹患乳癌的盛行機率是1%。 如果一名婦女有乳癌,那麼她檢驗為陽性的機率是90%。 倘若一名婦女沒有乳
    Thumbnail
    過去曾有一本書《免費!揭開零定價的獲利祕密》強調「免費」的概念與趨勢,以及在網路時代中以免費方式興起的商業模式。而William Poundstone在其著作《洞悉價格背後的心理戰Priceless: The Myth of Fair Value》中,也使用了一個章節探討「免費」模式對消費決策所產生
    Thumbnail
    在《洞悉價格背後的心理戰Priceless: The Myth of Fair Value》中,作者William Poundstone探索人類心理在價格判斷中的錯覺與偏誤,並揭示了其中複雜的機制和操縱手段。他說明了我們如何在價格決策上受到無意識的影響,並以多個心理學實驗案例呈現出我們經常掉入的思維
    Thumbnail
    在商業世界中,如何洞悉消費者進行決策時的心理是企業運行中重要課題。只有真正理解人性中錯綜複雜的盲點與偏見,我們才能提出貼近消費者內心的產品與行銷策略。在《洞悉價格背後的心理戰Priceless: The Myth of Fair Value》一書中,作者William Poundstone指出:人類
    Thumbnail
      前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
    隨因為推論統計邏輯明顯有問題 心理學實驗看到的 p value是 P(Data| Hyptohesis), 也就是假設成立的情況下拿到這樣的資料的機率 以下是大家常見的推論步驟: 先設一個虛無假設 (H0) 拿資料, 算 p value ( = P(Data | Hypothesis)
    Thumbnail
    接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
    Thumbnail
    "管過去它做了什麼"是絕對不對的觀念,不是只有政治而已,而是為人處世必須要小心萬劫不復的陷阱。 在數學或流行病統計上有一個叫做貝氏定理,應用在觀察一個人,則相當於觀察他失去信任的過程。