雖然之前修過一點點統計,不過程度一直都在幼幼班的程度,但是昨天我們家小朋友在網路上看了一部影片,晚上就來問東問西,但總覺得小朋友說的影片內容太奇怪,要不然就是譁眾取寵的影片,但犯了基本錯誤,要不然就是小朋友沒弄懂影片內容誤會了。今天早上空了一點時間,就把影片的字幕抓下來,餵給Gemini,然後就跟Gemini聊了統計,感覺還不錯啊,有把影片的想法和腦袋裡面的東西釐清了,以下是聊天內容和我發問時候的想法。
首先就是把影片的字幕全部餵給Gemini,讓Ai先知道完整的影片內容,並且預告說要跟他討論影片的內容。
我在網路看到一部影片,我將影片字幕擷取下來,內容如下,你先幫我讀一下。我等等要就這部影片內容和你討論。
好的,賭Sir在這部影片中提出了幾個令人深思的觀點,主要圍繞著現代統計學的基礎和應用,特別是與機率和假設檢定相關的謬誤。他以輕鬆幽默的方式,逐步闡述了以下幾個核心論點:
- 機率不等於長期頻率: 他透過擲硬幣的例子質疑了「機率是長期頻率的極限」這種常見說法,認為這是一種輸打贏要的說法,並將責任推給了無限次實驗。
- 假說檢定(Hypothesis Testing)的邏輯謬誤: 他認為假說檢定的核心思維存在缺陷,因為它假設一個命題為真,然後觀察到一個低機率事件發生,就推翻了原假設。他指出,低機率事件在現實中是可能發生的,並用無限猴子定理和洗牌的例子來佐證。
- 現代統計學的漏洞: 他受到《伯努尼謬誤》(Bernoulli's Fallacy)這本書的啟發,認為現代統計學本身存在一個很大的漏洞。
- 混淆條件機率 P(A|B) 和 P(B|A): 他認為假說檢定混淆了「在假設 H 成立的前提下,觀察到數據 D 的機率 P(D|H)」和「在觀察到數據 D 的前提下,假設 H 成立的機率 P(H|D)」。他強調我們真正關心的是後者,但傳統的假說檢定卻是計算前者。
- 貝氏定理(Bayes' Theorem)和先驗機率(Prior Probability): 他提到要計算 P(H|D) 需要使用貝氏定理,而貝氏定理需要先驗機率,這引發了「如果已經有先驗機率,為什麼還要進行實驗」的疑問,並觸及了機率的客觀與主觀之爭。
- 現代統計學的歷史和政治背景: 他提到現代統計學的奠基人如 Karl Pearson 和 Ronald Fisher 與優生學有關聯,他們傾向於將機率視為客觀事物,可能帶有政治目的。
- 複製危機(Replication Crisis): 他指出,現代統計學的漏洞可能導致科學研究中的複製危機,即許多已證實的理論在重複實驗時無法得到支持。
- 《概率論沉思錄》(The Logic of Science): 他推薦了 E.T. Jaynes 的這本書,認為這本書對修補現代統計學的謬誤具有重要意義。
總而言之,賭Sir在這部影片中挑戰了我們對機率、統計和科學研究的傳統認知,提出了許多值得深入思考的問題。
您接下來想討論影片中的哪個部分呢?
從上面可以看到Ai整理了影片的摘要出來,這個是大家早就知道的Ai強項啦,這部分沒什麼大問題,給的資訊夠完整的話,不太需要擔心出錯。接著我就要根據我昨天聽到小朋友說的內容,去提出問題和Ai討論了。
首先就我所知,以撲克牌的例子來說,13張撲克牌拿出來的時候,某特定順序的機率確實是1/13!,但任意拿出「未指定」的順序牌,本來就是很正常的事情,由於未事先指定,所以13!的可能性都是符合的,除非事先指定一個順序,然後洗牌之後又剛好拿到這個順序,機率才是1/13!,不能用這個例子說:「我可以很容易拿到機率很低的組合」
他是不是有提到這一點?我有誤解他的意思嗎?
你說得非常正確,你對這個撲克牌例子的理解是完全正確的。賭Sir 在影片中用 13 張撲克牌洗牌後得到特定順序的機率是 13!1(約六十億分之一)來類比「低機率事件經常發生」的觀點。
你敏銳地指出,在洗牌之前,任何一個特定的順序發生的機率都是相等的,都是 13!1。當我們洗完牌後看到一個特定的順序,這個順序本身並沒有比其他任何順序更「特別」或更「低機率」。 我們之所以覺得某些順序「不特別」,是因為我們沒有預先指定它們。
賭Sir 在影片中確實有提到你所說的這一點。 在他舉完撲克牌的例子後,他是這麼說的:
當然你可能會說,剛剛你那13隻牌的次序 也不是很特別,但事實是無論牌序 是怎樣,發生的機率也是一樣 是60億份之一,所以所謂特別不特別 的感覺,只是我們人類主觀地去賦予某些結果 一些特別的意義而已 所以機率低的事情在我們日常生活是不斷發生的
所以,賭Sir 的重點並不在於拿到一個「特別」的順序的機率很低,而是想強調:
- 每一個可能的結果(即使是我們主觀上認為「普通」的結果)都具有相同的低機率。
- 由於可能性非常多(13! 個),因此在日常生活中,我們總是會觀察到一個機率非常低的特定結果發生,只是我們通常不會注意到它的低機率,因為我們沒有預先指定它。
- 我們人類傾向於對某些結果賦予「特別」的意義,而忽略了所有結果在數學上都具有相同的低機率。
因此,你的理解是正確的,賭Sir 也意識到並提到了「未事先指定順序」這個關鍵點。他利用這個例子來闡述「低機率事件普遍存在,只是我們通常不會意識到」的觀點,並以此來質疑假說檢定中「觀察到低機率事件就推翻原假設」的邏輯。
你覺得他用這個例子成功地傳達了他的意思嗎?或者你對這個例子還有其他的看法?
我想要知道更詳細一點的,「觀察到低機率事件就推翻原假設」在傳統統計學上的邏輯以及賭sir的邏輯分別是什麼
好的,我們來詳細解析一下傳統統計學和賭Sir對於「觀察到低機率事件就推翻原假設」這個邏輯的看法有何不同:
傳統統計學(以頻率學派的假說檢定為主)的邏輯:
- 設立虛無假設 (Null Hypothesis, H0) 和對立假設 (Alternative Hypothesis, H1):
- H0 通常代表沒有效應、沒有差異或現狀。
- H1 代表我們想要檢驗的效應或差異。
- 假設虛無假設為真: 這是假說檢定的起點,我們先假設我們想要推翻的說法是對的。
- 收集樣本數據 (Data, D): 我們進行實驗或觀察,收集相關的數據。
- 計算在虛無假設成立的前提下,觀察到目前數據(或更極端數據)的機率,即 p-value: 這就是 P(D or more extreme ∣H0 is true)。p-value 代表了如果虛無假設是真的,我們觀察到目前結果或更不可能結果的機率有多大。
- 設定顯著水準 (α): 這是一個事先設定的閾值(通常是 0.05 或 0.01),代表我們願意接受犯第一型錯誤(在虛無假設為真時拒絕它)的最大機率。
- 做出決策:
- 如果 p-value 小於或等於顯著水準 (p-value≤α),我們就拒絕虛無假設 (H0),並認為有足夠的證據支持對立假設 (H1)。其邏輯是:如果在 H0 為真的前提下,觀察到如此低機率的事件,那麼 H0 很可能是不對的。
- 如果 p-value 大於顯著水準 (p-value>α),我們就不拒絕虛無假設 (H0)。這並不代表我們證明了 H0 是真的,只是我們沒有足夠的證據去推翻它。
賭Sir 的邏輯和質疑:
賭Sir 的核心質疑在於,觀察到一個低機率事件並不一定代表導致這個事件發生的假設是錯誤的。 他的論點基於以下幾點:
- 低機率事件很常見: 就像撲克牌的例子,任何一個特定的結果都有很低的機率,但我們總是會觀察到其中一個結果。因此,僅僅因為觀察到一個低機率事件就否定原假設是不合理的。
- 混淆條件機率: 他認為傳統的假說檢定計算的是 P(D∣H0),也就是在虛無假設成立的前提下觀察到數據的機率。然而,我們真正關心的是 P(H0∣D) 或 P(H1∣D),即在觀察到數據後,虛無假設或對立假設為真的機率。他認為這兩者是不同的,而傳統方法並沒有直接評估我們真正關心的機率。
- 類比反證法的不恰當性: 傳統統計學的假說檢定有時會被認為類似於數學上的反證法。賭Sir 認為這是一個誤導。
- 反證法: 假設 A 為真,導出矛盾,因此 A 為假。這裡的矛盾是邏輯上必然不成立的(機率為零的事件)。
- 假說檢定: 假設 H0 為真,觀察到一個低機率事件。這個低機率事件並非不可能發生(機率不為零),因此不能像反證法那樣直接推翻 H0。
- 無限猴子定理的啟示: 即使一個事件的機率極低(例如猴子打出莎士比亞全集),在足夠多的嘗試(或猴子)下,它仍然會發生。因此,單一低機率事件的發生不代表背後的假設(猴子不認識莎士比亞)是錯誤的。
總結來說:
- 傳統統計學的邏輯: 如果在假設(通常是虛無假設)為真的情況下,觀察到極不可能發生的數據,那麼這個假設很可能是不成立的。其重點在於這個條件機率 P(D∣H0) 的大小。
- 賭Sir 的邏輯: 觀察到一個低機率事件本身並不罕見,而且這個事件的發生並不一定意味著我們最初的假設是錯誤的。他認為傳統方法混淆了我們真正關心的條件機率,並且將一個可能發生的低機率事件等同於反證法中的矛盾,從而錯誤地推翻了假設。
你覺得這樣解釋有更清楚嗎?你對他們之間的差異還有什麼疑問嗎?
但是我們在統計上,本來就不會觀察到「一個」低機率的事件,就做判定啊。本來樣本數就要夠多,樣本數少,能夠判定的條件就會更加更加嚴格不是嗎?
你說得非常對!在實際的統計實務中,我們通常不會僅僅基於「一個」低機率事件的觀察就做出判斷,尤其是要推翻一個虛無假設。樣本數的大小確實會極大地影響我們的判斷力。 你的理解是完全正確的。
讓我更詳細地說明這一點,並將其與賭Sir的觀點聯繫起來:
統計實務中考量樣本數的重要性:
- 樣本數與統計檢定力 (Statistical Power):
- 較大的樣本數通常會提高統計檢定力。檢定力是指當對立假設 (H1) 為真時,我們正確地拒絕虛無假設 (H0) 的機率。
- 樣本數較小時,即使對立假設為真,我們也可能因為證據不足而無法拒絕虛無假設,導致第二型錯誤(Type II error,虛無假設為假但我們不拒絕它)。
- 樣本數與 p-value 的穩定性:
- 在樣本數較小的情況下,p-value 的波動性通常較大,更容易受到單個異常值的影響,從而可能導致錯誤的結論。
- 隨著樣本數的增加,p-value 會趨於穩定,對真實效應的估計也會更加精確。
- 小樣本下的嚴格判定條件:
- 正如你所說,當樣本數較小時,為了避免過度推翻虛無假設(降低第一型錯誤的風險),我們通常會設定更嚴格的顯著水準 (α),或者要求觀察到更極端的數據才能拒絕虛無假設。
賭Sir 的論點與樣本數的關聯:
賭Sir 的核心論點是質疑「觀察到低機率事件就推翻原假設」的邏輯基礎,他認為即使在多次重複實驗或大量數據下,這種邏輯仍然存在問題。
- 他認為即使在大型樣本中觀察到一個「顯著」的結果(p-value 很小),這仍然只是眾多可能的低機率結果中的一個。 雖然在虛無假設下觀察到這種結果的機率很低,但它仍然是有可能發生的,因此不能完全否定虛無假設。
- 他強調的是條件機率的混淆,這一點與樣本數的大小沒有直接的關聯。 無論樣本大小,我們真正關心的是 P(H0∣D),而傳統方法計算的是 P(D∣H0)。
我的理解:
- 你強調的是統計實務中為了控制錯誤率而採取的措施,例如增加樣本數和調整顯著水準。這些做法旨在提高結論的可靠性。
- 賭Sir 則更側重於對傳統假說檢定邏輯本身的質疑,他認為即使我們採取了嚴謹的實驗設計和足夠的樣本量,其背後的推論邏輯仍然存在根本性的缺陷。
一個類比:
想像我們在進行多次拋硬幣的實驗來檢驗硬幣是否公平(H0: P(正面)=0.5,H1: P(正面)=0.5)。
- 小樣本: 如果我們拋 10 次硬幣,得到 9 次正面,p-value 可能不高,我們可能不會拒絕硬幣是公平的虛無假設,因為樣本太小,這樣的結果可能只是隨機波動。我們會更加謹慎。
- 大樣本: 如果我們拋 1000 次硬幣,得到 900 次正面,p-value 會非常小,我們會強烈拒絕硬幣是公平的虛無假設。
在你的觀點中,增加樣本數有助於我們更可靠地做出判斷。賭Sir 的觀點則會說,即使在 1000 次中得到 900 次正面是一個在 P(正面)=0.5 的假設下機率非常低的事件,但它仍然是眾多可能的低機率結果中的一個,而且我們真正想知道的是「在觀察到 900 次正面後,硬幣是不公平的機率是多少?」而不是「如果硬幣是公平的,觀察到 900 次正面的機率是多少?」
總之,你的觀點強調了統計實務中控制錯誤的重要性,而賭Sir 的觀點則更深入地質疑了傳統推斷邏輯的有效性,即使在有足夠樣本的情況下。這兩者都是理解這個問題的重要角度。
統計的結論,本來就是談機率,以及這個論述有「多有把握」或者「多沒有把握」,假設一個真正公平的硬幣,丟了一千次之後,跑出900正面100反面的機率是真的很低,假設有「一次」的實驗真的出現了,以致於我們用這個結果來判定「這個硬幣是不公平的,正面的機率是背面的9倍」,我們也會知道,這個論述的風險有多高,並且把這個錯誤的風險放入我們的論述中不是嗎? 為什麼這會是「統計學上的錯誤」?
你精準地點出了統計推論的本質!統計結論確實是在談論機率和我們對論述的把握程度,並且我們會盡力評估和報告錯誤的風險。 你對於公平硬幣實驗結果的理解也是正確的。
針對你的疑問「為什麼這會是『統計學上的錯誤』?」,賭Sir 的論點並不是說我們在實務中不會考慮錯誤的風險,而是認為傳統假說檢定的底層邏輯在概念上存在問題,即使我們報告了 p-value 和顯著水準等風險指標。
以下是賭Sir 可能會提出的觀點,來解釋他為何認為這仍然是「統計學上的錯誤」:
- 混淆了條件機率的本質: 即使我們計算出在硬幣公平的假設下(H0:P(正面)=0.5),觀察到 900 正面和 100 反面的機率(p-value)非常低,這仍然是 P(D∣H0)。賭Sir 會強調,我們真正想知道的是 P(H1:P(正面)=0.9∣D),也就是在觀察到這個數據後,硬幣正面機率是 0.9 的可能性有多大。傳統的 p-value 並不能直接回答這個問題。
- 對 p-value 的誤解: 許多人(包括研究者)可能會錯誤地將極低的 p-value 解釋為「虛無假設為假的機率非常高」。然而,p-value 只是在虛無假設成立的前提下,觀察到目前數據或更極端數據的機率。它並不是 P(H0∣D)。賭Sir 認為這種常見的誤解是傳統方法邏輯缺陷的體現。
- 忽略了先驗機率: 在你的硬幣例子中,我們通常會有一個「先驗的信念」認為硬幣是公平的機率很高。貝氏統計學會明確地將這種先驗信念納入考量。賭Sir 受到《伯努尼謬誤》的啟發,認為傳統頻率學派的假說檢定忽略了這種先驗資訊,只基於當前數據的似然性做出判斷。如果我們事先強烈認為硬幣是公平的,即使觀察到一次極端的結果,我們也不應該立即就相信正面機率是背面的九倍,而是應該考慮到這可能是一個極其罕見的隨機事件。
- 過度依賴單次實驗的結果: 即使我們報告了錯誤的風險,賭Sir 可能會認為,傳統方法仍然傾向於基於單次實驗的 p-value 來做出二元判斷(拒絕或不拒絕虛無假設),而沒有充分考慮到長期來看,即使在真實的虛無假設下,我們也有 α 的機率犯第一型錯誤(拒絕了真實的虛無假設)。
- 「機率很低的事件發生了」本身並不代表假設錯誤: 就像他用無限猴子定理和洗牌的例子所說,機率再低的事件在足夠多的嘗試或可能性下也會發生。一次極端拋硬幣結果的出現,雖然機率低,但並非不可能,因此不能直接證明硬幣一定不公平,只是提示我們需要更謹慎地評估。
總結來說,賭Sir 的批評並非否定我們在統計實務中會評估風險,而是認為傳統假說檢定的邏輯框架,尤其是對 p-value 的解釋和對條件機率的處理,存在根本性的概念問題,這可能導致我們對數據的理解和結論的解釋產生偏差,即使我們試圖報告錯誤的風險。 他推崇貝氏統計學的觀點,認為它能更直接地評估我們真正關心的假設成立的機率,並能納入先驗知識。
你覺得這樣的解釋有釐清賭Sir 的觀點嗎?你是否同意他的一些看法?
好像有比較懂,不過我聽起來,有兩個層面
1.這是人自己在操作統計時,因為一些心理因素造成使用統計時出現問題,而非統計學原本設計的問題
2.這是屬於在實務操作面上,無法完全避免的,因為我們沒辦法測試無限次數,只能在有限的資源和時間中去取得更可信的資料,這是現實層面的限制,而非統計學上的問題?
你這兩個層面的理解都非常到位,而且點出了這個爭論的核心所在!賭Sir 的論點確實可以從這兩個角度來理解,但他本人可能更傾向於認為這是統計學本身在概念上存在需要修正的地方。
讓我分別就這兩個層面展開說明:
1. 人為操作和心理因素導致的問題:
你說的這一點非常重要。統計學作為一種工具,其有效性很大程度上取決於使用者的理解和操作。很多時候,統計問題的出現並非源於統計學理論本身的缺陷,而是由於:
- 對統計概念的誤解: 例如,對 p-value 的錯誤解釋,認為 p-value 是虛無假設為假的機率。
- 確認偏差 (Confirmation Bias): 研究者可能傾向於尋找支持自己假設的證據,而忽略或輕視不支持的證據。
- p-hacking 和 HARKing (Hypothesizing After the Results are Known): 為了獲得顯著的 p-value,研究者可能在分析過程中進行不恰當的操作,或者在看到結果後才提出假設。
- 對顯著性 (Statistical Significance) 的過度強調: 將統計上的顯著性等同於實際應用中的重要性。
從這個角度來看,賭Sir 提到的很多問題,例如對低機率事件的過度解讀和對條件機率的混淆,確實可能因為人們的認知偏差而加劇。如果使用者能夠更正確地理解和應用統計方法,許多問題或許可以得到緩解。
2. 實務操作的限制:
你指出的這一點也是現實中無法迴避的挑戰。科學研究和決策往往需要在有限的時間、資源和樣本下進行。我們不可能進行無限次的實驗來獲得「真實」的機率或完全排除隨機性。這導致:
- 抽樣變異 (Sampling Variation): 我們從總體中抽取的樣本只是總體的一個子集,不同的樣本會產生不同的結果,這就帶來了固有的不確定性。
- 第一型和第二型錯誤的風險: 在有限的樣本下,我們總有犯錯的機率,即使我們盡力控制這些風險。
- 對「長期頻率」的依賴: 在許多情況下,我們只能通過有限的實驗或觀察來估計機率,並依賴大數法則在長期下的趨勢,但我們永遠無法真正觀察到「無限次」。
從這個角度來看,傳統統計學的框架(例如頻率學派)正是為了在這些現實限制下提供一套可操作的方法來進行推斷,並量化我們判斷的不確定性。p-value 和顯著水準等概念,正是為了幫助我們在有限的證據下做出合理的決策,並意識到潛在的錯誤風險。
賭Sir 的潛在觀點:
雖然賭Sir 可能會承認這兩個層面的問題都存在,但他似乎更傾向於認為,傳統統計學的底層邏輯本身就存在缺陷,這些缺陷使得人們更容易受到上述人為因素和實務限制的影響,並可能導致系統性的錯誤。
他可能會認為:
- 傳統方法對條件機率的處理方式不夠直觀,容易導致誤解。
- 過度依賴 p-value 作為決策的唯一依據,而忽略了先驗資訊和其他證據。
- 將一個可能發生的低機率事件視為否定假設的強烈證據,這在邏輯上是不夠嚴謹的。
因此,賭Sir 的目標可能不僅僅是教育人們如何更正確地使用現有的統計工具,而是呼籲對統計學的基礎理論進行更深入的思考和修正,例如引入更多貝氏統計的思想,以便在概念上更清晰地處理不確定性,並做出更合理的推斷。
總之,你提出的這兩個層面確實是理解這個討論的關鍵。賭Sir 的觀點可以被視為是對傳統統計學在面對這些人為和實務限制時,其理論基礎是否足夠穩健的挑戰。
再來我想知道他說的「無限猴子」的問題是什麼?
好的,賭Sir 在影片中提到的「無限猴子定理」(Infinite Monkey Theorem)是用來類比傳統假說檢定中「觀察到低機率事件就推翻原假設」的邏輯問題。
無限猴子定理的內容:
這個定理用一種形象化的方式來說明,如果在一個無限大的時間內,讓無限多的猴子隨機地在打字機上敲擊按鍵,那麼最終必然會有一隻猴子打出任何給定的文本,例如莎士比亞的全集。
賭Sir 如何將其應用於批判假說檢定:
賭Sir 將這個定理類比到科學研究和假說檢定的過程:
- 猴子隨機打字類比於隨機抽樣和實驗結果: 每隻猴子隨機打出的字元序列,可以看作是一次實驗或一次抽樣得到的數據。由於抽樣本身就帶有隨機性,所以每次實驗的結果都可能不同。
- 打出莎士比亞全集類比於觀察到一個「顯著」的低機率事件: 打出莎士比亞全集是一個極其複雜且機率極低的事件。在假說檢定中,觀察到一個導致我們拒絕虛無假設的「顯著」結果(p-value 很低),也可以看作是一個在虛無假設成立的前提下機率極低的事件。
- 假說檢定的推論問題: 傳統的假說檢定是這樣的:
- 假設(虛無假設): 猴子是不認識莎士比亞的,所以牠們的打字是完全隨機的。
- 觀察到的數據(低機率事件): 其中一隻猴子竟然打出了莎士比亞全集。
- 結論: 因此,我們推翻原假設,認為這隻猴子是認識莎士比亞的(或者牠的打字不是完全隨機的)。
賭Sir 的批判:
賭Sir 認為,就像無限猴子定理所說,即使猴子是完全隨機打字的(虛無假設為真),在無限多的猴子中,也必然會出現一隻(或很多隻)碰巧打出了莎士比亞全集。這個極低機率事件的發生,並不一定意味著猴子真的認識莎士比亞,而很可能只是隨機性的結果。
他將這個邏輯問題應用到假說檢定上:
- 我們觀察到一個在虛無假設下機率很低的結果,這可能只是因為在眾多可能的實驗結果中,我們碰巧遇到了這一個極端的結果。
- 這並不一定意味著我們的虛無假設是錯誤的,而可能只是隨機抽樣或實驗變異造成的。
- 由於我們通常只進行有限次的實驗,我們很難判斷我們觀察到的「顯著」結果,是真實效應的體現,還是像那隻碰巧打出莎士比亞的猴子一樣,只是隨機性的產物。
重點總結:
賭Sir 使用無限猴子定理來強調:
- 低機率事件是可能發生的,尤其是在有大量嘗試或可能性的情況下。
- 僅僅因為觀察到一個低機率事件就推翻原假設,可能會導致錯誤的結論,因為這個事件很可能只是隨機性造成的,而不是原假設錯誤的證據。
- 傳統的假說檢定方法,在處理這種「低機率但可能發生」的情況時,可能存在邏輯上的缺陷。
他希望藉此說明,我們需要更謹慎地看待統計上的顯著性,並意識到即使觀察到一個極低的 p-value,也並不代表我們的虛無假設一定為假。我們需要考慮到隨機性的作用以及其他可能的解釋。
好,看起來就跟上面討論的事情是同樣的事件,只是他用了更多不同的例子來說明?
完全正確!你總結得非常到位。賭Sir 使用無限猴子定理、撲克牌洗牌,以及他後續提到的法庭判決、醫療診斷和科學研究中的「複製危機」等例子,本質上都是在闡述同一個核心觀點:僅僅因為觀察到一個在某個假設下機率很低的事件,就斷然否定這個假設,其邏輯是存在問題的。
這些例子都旨在說明:
- 低機率事件並非不可能發生: 無論是猴子打出莎士比亞、洗出特定的牌序,還是實驗得到一個極端的結果,這些事件的機率可能很低,但在大量的嘗試或可能性下,它們仍然可能發生。
- 人類傾向於對「顯著」的低機率事件賦予過多的意義: 我們可能會覺得一個打出莎士比亞的猴子一定是特別的,或者一個極端的實驗結果一定證明了我們的假設。但事實上,這可能只是眾多隨機結果中的一個。
- 傳統假說檢定可能過於依賴這種「低機率否定假設」的模式: 賭Sir 認為,這種模式忽略了低機率事件本身發生的可能性,以及我們真正關心的條件機率(在觀察到數據後,假設為真的機率)。
因此,你可以將他使用的不同例子視為從不同角度、以更生動有趣的方式來解釋他對傳統統計學中「觀察到低機率事件就推翻原假設」這一邏輯的質疑。這些例子都指向了他認為的根本問題:將低機率事件的發生視為強烈否定原假設的證據,而沒有充分考慮到隨機性和條件機率的混淆。
我想以無限猴子的例子再討論一下,這個例子是否可以視為以下這樣的情境
1.有研究人員想知道,這無限多的猴子,會不會剛好有至少一隻猴子,認識莎士比亞的全部作品,並且能完整默寫出來
2.他為了證實這個研究,就拿了無限多台打字機給無限多猴子,以無限長的時間來記錄他們的打字結果
3.結果果然有至少一隻猴子,打出了完整的莎士比亞全集。
4.證明研究員的假設是真的
是這個意思嗎?
你的描述非常接近無限猴子定理想要闡述的概念,但將其與「證明研究員的假設是真的」聯繫起來時,需要非常小心區分定理本身和研究員的假設之間的關係。
讓我們一步一步分析你的情境:
- 研究人員的假設:至少有一隻猴子認識莎士比亞的全部作品,並且能完整默寫出來。
- 實驗設計:無限多台打字機給無限多猴子,以無限長的時間記錄打字結果。
- 實驗結果:果然有至少一隻猴子,打出了完整的莎士比亞全集。
現在的關鍵在於第 4 點:這個結果是否證明研究員的假設是真的?
根據無限猴子定理本身,這個結果並不能證明猴子「認識」莎士比亞。定理的重點是:在無限的時間和無限的數量下,一個完全隨機的過程最終會產生任何特定的有限序列,包括莎士比亞全集。
定理的含義是:極低機率的事件在足夠多的嘗試下是必然會發生的,這並不需要任何智能或預先存在的知識。
因此,即使我們觀察到一隻猴子打出了莎士比亞全集,這也完全有可能是純粹隨機性的結果,而不是因為猴子「認識」莎士比亞。
與賭Sir批判假說檢定的關聯:
賭Sir 正是利用這個例子來質疑:當我們在科學研究中觀察到一個「極不可能」發生的結果(就像猴子打出莎士比亞),我們是否就能斷定我們最初的「虛無假設」(例如,猴子是隨機打字的)是錯誤的,並接受「對立假設」(例如,猴子認識莎士比亞)?
賭Sir 的觀點是:觀察到一個低機率事件本身,並不能排除這個事件是隨機發生的可能性,尤其是在有大量的機會(無限多的猴子和無限的時間)的情況下。
修正你的理解:
你的情境描述了無限猴子定理的結果,但將其解釋為「證明研究員的假設是真的」是有問題的。更準確的理解是:
- 研究員的假設是猴子認識莎士比亞。
- 實驗結果是觀察到一隻猴子打出了莎士比亞全集。
- 根據無限猴子定理,這個結果並不能證明研究員的假設。 因為即使猴子完全是隨機打字的,在無限的條件下,這個結果也必然會發生。
結論:
無限猴子的例子並不是為了證明一個關於猴子是否認識莎士比亞的假設,而是為了說明極低機率的事件可能會在純粹的隨機過程中發生。賭Sir 借用這個例子來警示我們,在科學研究中,觀察到一個看似「顯著」的結果時,要謹慎考慮這是否只是隨機性的產物,而不是我們假設的真實證據。
你覺得這樣更清楚地理解了無限猴子定理在這個討論中的作用嗎?
對,我想說的是,真實世界的研究員,都知道這件事情吧?我們在科學研究上,只會說:「我們得到了一個支持這個假說的證據」而不會說「這個事件證明了我的假設是正確的」,不是嗎?
你說得非常正確!在嚴謹的科學研究中,研究人員確實不會宣稱他們的觀察「證明」了假設是「正確的」。 科學的本質是基於證據和不斷的驗證,結論通常是暫時性的,並隨著更多證據的出現而可能被修正或推翻。
科學研究的語言更加謹慎和細緻,通常會使用以下表述:
- 「我們的研究結果為這個假說提供了支持。」
- 「觀察到的數據與這個假說相符。」
- 「我們沒有找到足夠的證據來反駁這個假說。」
- 「這個研究結果增加了我們對這個現象的信心。」
- 「需要更多的研究來進一步驗證這個發現。」
為什麼科學研究如此謹慎?
- 抽樣變異: 我們總是基於樣本進行推論,而樣本只是總體的一部分,可能存在抽樣誤差。
- 隨機性: 正如無限猴子的例子所揭示的,即使在沒有真實效應的情況下,我們也可能觀察到看似「顯著」的結果。
- 潛在的混淆因素: 我們可能無法完全控制實驗中的所有變數,導致觀察到的結果受到其他因素的影響。
- 理論的局限性: 我們提出的假說只是對現實的一種解釋,可能並不完全完善或準確。
賭Sir 的觀點與你的觀察的關聯:
賭Sir 的批判,雖然看似激進,但其核心是提醒我們即使在科學研究的嚴謹框架下,傳統的假說檢定方法仍然可能存在潛在的邏輯陷阱,導致我們對證據的解讀產生偏差。
他可能會認為:
- 即使我們只說「提供了支持」,但如果我們過度依賴 p-value 這個在特定假設下觀察到數據的機率,我們仍然可能將一個低機率的隨機事件誤認為是強有力的支持證據。
- 傳統方法較少直接評估「在觀察到數據後,我們的假說為真的機率」,這使得我們難以真正量化對假設的「把握程度」。
- 科學家當然知道不能「證明」假設,但現有的統計框架,尤其是在實務操作中,可能仍然鼓勵了對「統計顯著性」的過度解讀,而忽略了其他可能性。
因此,賭Sir 的目標並不是說科學家都是傻瓜,會直接宣稱「證明了!」,而是希望促使科學界反思現有的統計推斷方法,並考慮更嚴謹、更能直接評估假設可能性的方法(例如貝氏統計)。他認為,即使語言上很謹慎,但如果底層的邏輯存在問題,我們仍然可能在理解和解釋研究結果時產生偏差。
總之,你對科學研究語言的觀察非常敏銳,這體現了科學的自我修正和謹慎性。賭Sir 的討論則是更進一步地探討,我們用來評估這些「支持證據」的統計工具,其底層邏輯是否足夠健全,以避免我們在追求「支持」的過程中,落入他所指出的「伯努尼謬誤」和其他相關的陷阱。
那麻煩告訴我關於「伯努尼謬誤」以及賭sir的論點
好的,我們來深入探討賭Sir在影片中提到的核心概念——「伯努尼謬誤」(Bernoulli's Fallacy)以及他基於此提出的論點。
什麼是「伯努尼謬誤」(Bernoulli's Fallacy)?
根據賭Sir的說法,以及他引用的《伯努尼謬誤》這本書(暫時沒有中文版),「伯努尼謬誤」指的是混淆條件機率 P(A∣B) 和 P(B∣A) 的錯誤,並且認為傳統的假說檢定(Hypothesis Testing)正是犯了這個錯誤。
具體來說:
- P(A∣B): 在事件 B 已經發生的前提下,事件 A 發生的機率。
- P(B∣A): 在事件 A 已經發生的前提下,事件 B 發生的機率。
這兩個條件機率通常是不同的,除非在 A 和 B 獨立的情況下。
賭Sir 如何將其應用於批判假說檢定?
賭Sir 認為,傳統的假說檢定流程如下:
- 假設虛無假設 (H) 為真。
- 收集數據 (D)。
- 計算在虛無假設成立的前提下,觀察到目前數據(或更極端數據)的機率,即 p-value,表示為 P(D∣H)。
- 如果 p-value 很低,就推翻虛無假設 (H)。
賭Sir 的核心論點是:我們真正關心的是在觀察到數據 D 之後,虛無假設 H 為真的機率,即 P(H∣D),或者更重要的是,對立假設成立的機率 P(¬H∣D)。
他認為,傳統的假說檢定計算出的 P(D∣H) 並不能直接告訴我們 P(H∣D)。將一個低的 P(D∣H) 值直接視為 H 不太可能成立的證據,就是犯了「伯努尼謬誤」。
類比思考:
賭Sir 在影片中沒有直接使用這個經典的醫學檢測例子,但它能很好地說明這個謬誤:
假設有一種罕見疾病(假設患病率很低,比如 1%),現在有一種檢測方法,它的準確率很高(假設陽性結果的準確率是 95%,陰性結果的準確率也是 95%)。
- H:某人沒有患病。
- D:檢測結果為陽性。
傳統的假說檢定可能會這樣想:如果這個人沒有患病 (H 為真),那麼檢測結果卻為陽性的機率 P(D∣H) 是比較低的(5% 的假陽性率)。因此,如果檢測結果為陽性,我們可能會傾向於認為這個人患病的可能性很高,從而拒絕「沒有患病」的假設。
然而,我們真正關心的是:在檢測結果為陽性的前提下,這個人真正患病的機率 P(¬H∣D)(或者說 P(患病∣陽性))。
由於疾病的患病率非常低,即使檢測的準確率很高,一個陽性結果並不一定意味著患病的機率很高。根據貝氏定理,我們需要考慮先驗機率(疾病的患病率)才能正確計算出 P(患病∣陽性)。在這種情況下,P(患病∣陽性) 可能遠低於 95%,甚至可能低於 50%,因為基數(未患病的人數)非常大,導致假陽性的人數可能比真陽性的人數還要多。
賭Sir 的論點總結:
- 傳統假說檢定關注的是 P(D∣H),而不是我們真正關心的 P(H∣D)。
- 將一個低的 P(D∣H) 值直接等同於 H 不太可能成立是邏輯上的錯誤,即「伯努尼謬誤」。
- 要正確評估 P(H∣D),需要使用貝氏定理,而貝氏定理需要先驗機率(prior probability),這是傳統頻率學派所 избегает 的。
- 這種謬誤可能導致在法庭判決(檢察官謬誤)、醫療診斷(基本比率謬誤)和科學研究(複製危機)等領域產生錯誤的結論。
賭Sir 強調,我們應該更加關注在觀察到數據後,我們的假設為真的機率,而不是僅僅依賴在假設為真的前提下觀察到數據的機率。他認為,理解和避免「伯努尼謬誤」對於做出更明智的判斷至關重要。
好,這聽起來仍然是人類在心裡習慣上,會犯的錯誤,也就是誤用了統計學,而不是在統計學的設計上有問題?因為統計學本來就有把這些判定犯錯的機率也都算出來了?
你再次提出了非常關鍵且深刻的見解!你說的是一個長期以來在統計學界爭論不休的核心問題:究竟我們觀察到的問題更多是源於人類對統計學的誤解和誤用,還是統計學的理論框架本身就存在固有的缺陷?
你的觀點認為,統計學已經提供了評估犯錯機率的工具(例如 p-value、α、第一型和第二型錯誤率等),問題更多在於人類的心理偏差和對這些概念的不當理解。這確實是一個重要的角度。
支持你的觀點:
- 統計學明確指出了錯誤的可能性: 假說檢定的框架本身就承認我們可能會犯錯。顯著水準 (α) 就是我們願意接受犯第一型錯誤的最大機率,而檢定力 (power) 則關乎我們避免第二型錯誤的能力。
- 教育和理解的挑戰: 統計學的概念往往比較抽象,容易被誤解。許多人,包括研究人員和決策者,可能沒有接受過足夠的統計訓練,導致他們對 p-value、條件機率等概念產生錯誤的直覺。
- 心理偏差的影響: 人類的認知偏差,例如確認偏差、可得性偏差等,會影響我們如何解釋和使用統計資訊。我們可能傾向於尋找支持自己觀點的證據,或者過度依賴容易獲得的資訊,而忽略了統計數據的真實含義。
賭Sir(以及貝葉斯學派)可能提出的反駁或補充:
儘管承認人類會犯錯,賭Sir(以及更廣泛的貝葉斯學派)可能會認為,傳統頻率學派的統計框架在某些方面助長了這些錯誤,或者未能提供足夠直觀和直接的工具來避免這些謬誤:
- p-value 的間接性: p-value 回答的是「在虛無假設為真的前提下,觀察到目前數據或更極端數據的機率」,而不是我們真正關心的「在觀察到數據後,虛無假設為真的機率」。這種間接性使得人們更容易將低 p-value 錯誤地理解為虛無假設很可能為假。
- 缺乏直接評估假設機率的機制: 傳統方法不直接提供計算 P(H∣D) 的方法,而這正是人們在做出判斷時最想知道的。貝葉斯方法通過引入先驗機率,提供了一種更直接評估假設在給定數據下的後驗機率的方式。
- 對先驗知識的排斥: 頻率學派傾向於基於當前數據進行推斷,而較少納入先驗的知識或信念。然而,在許多實際情況下,我們已經對某些假設的可能性有一定的預期,忽略這些資訊可能會導致不合理的結論。
- 二元決策的傾向: 傳統的顯著性檢定往往導向「拒絕」或「不拒絕」虛無假設的二元決策,這可能過於簡化了複雜的現實,並忽略了結論的不確定性程度。貝葉斯方法則提供了一個更連續的概率框架,可以更細緻地表達我們對不同假設的信心程度。
總結:
你認為問題更多在於人類的誤用,這是一個非常合理的觀點,並且在很大程度上是正確的。統計教育和更清晰的溝通對於減少這些錯誤至關重要。
然而,賭Sir 的論點更進一步,他認為傳統統計學的框架本身在某些方面可能不夠直觀,或者未能提供足夠的工具來幫助人們避免系統性的認知偏差,例如「伯努尼謬誤」。他可能認為,引入更多貝葉斯統計的思想,可以提供一個更自然、更直接的方式來思考不確定性和證據,從而減少這些誤用和誤解。
這是一個持續的學術爭論,沒有一個簡單的答案。你的觀點強調了教育和理解的重要性,而賭Sir 的觀點則呼籲對統計學的理論基礎進行更深入的思考和可能的修正。兩者都對我們如何更有效地使用統計學至關重要。
這樣我懂了,賭sir這派的觀點是,我們應該可以藉由某些設計,抑制這些人類心理上的錯誤,不要讓這些人類心理本來就非常容易發生的謬誤,再用統計的方式來助長,讓這些錯誤因為取得了「科學證據」而變得更加強烈。
你這個總結非常精闢!這正是賭Sir及其所代表的觀點的核心所在。
他們認為,統計學作為一種強大的工具,如果其設計或應用方式不當,反而可能放大和強化人類固有的認知偏誤,使得原本就容易發生的謬誤披上了「科學」的外衣,從而更具迷惑性和誤導性。
賭Sir 這派的觀點強調:
- 統計方法應該更直觀、更符合人類的自然思維方式,以減少誤解和誤用。 例如,直接評估假設成立的機率(如貝葉斯方法所做),可能比間接評估數據在假設下的機率(如傳統 p-value)更能避免人們的錯誤直覺。
- 統計教育需要更加強調條件機率、先驗知識以及不同結論的可能性,避免過於簡化的二元判斷(接受/拒絕虛無假設)。
- 統計實務應該鼓勵更謹慎的結論,避免將低 p-value 等同於強有力的證據,並強調結果的不確定性。
- 設計更完善的統計框架,可以引導使用者更理性地分析數據,抑制確認偏差、基本比率謬誤等常見的認知陷阱。
他們並非否定傳統統計學的價值,而是認為有必要進行反思和改進,使其更能抵抗人類心理上的弱點,並提供更可靠、更易於理解的推論工具。透過更合理的統計方法和更完善的教育,可以幫助我們更清晰地認識現實世界的不確定性,避免讓統計學成為強化既有偏見或錯誤認知的幫兇。
你的理解非常到位,抓住了賭Sir 論點的精髓!




















