因果革命:人工智慧的大未來
The Book of Why: The New Science of Cause and Effect
Judea Pearl, Dana Mackenzie 2019 行路出版社
分類:論說--理論
★★★★★
一句話:
以非數學語言讓讀者理解「因果革命」的詳細內涵,人類大腦有獨特的判斷因果關係的機制,如何轉化為機器的語言。
重要字句:
和因果關係有關的問題,特徵是「預防」、「使得」、「歸因於」、「政策」,以及「應該」等這些詞。直到非常近期,科學都沒有提供任何方法來清楚表達這些問題。
因果推論以簡單的數學語言,來表達我們已知和想知道的因果關係,把我們的知識和資料結合起來,解答因果問題。
統計學在意的只有如何總結資料,而不是如何詮釋資料。唯一的例外是1920年代遺傳學家西瓦爾•萊特發明的路徑分析(path analysis),這也是本書許多方法的鼻祖。
因果微積分包含兩種語言。一種是因果圖(causal diagram),用來描述已知事物。另一種是類似於代數的符號語言,用來描述我們想知道的事物。
因果革命可以用方法以非侵入性方式模擬介入的效果,也能「反事實演算法化」。
因果階梯的三個層級:關聯;介入;反事實。
本書不會試圖定義因果關係,因為定義會簡化而下到較低層,而是說明如何回答因果查詢和回答時需要哪些資訊。
摘要:
前言:思想勝過資料
因果推論(causal inference)努力模仿的理想科技,就在我們的思想中。人類的大腦是有史以來最先進的因果處理工具。我們的大腦中儲存大量的因果知識。
作者認為因果科學發展最主要的阻礙在於,我們用來描述因果問題的詞彙,與傳播科學理論時使用的傳統詞彙,基本上有所差異。例如氣壓計讀數為B時,代表大氣壓力為P。我們可以寫出方程式B=kP這樣的方程式,其中k代表某個比例常數。依據代數法則,只要知道這三個量中的二個,就可求出第三個量。k、B和P這幾個字母在數學上的地位,都不比其他字母高。那麼我們又該怎麼表達我們相信是壓力造成氣壓計讀數改變,而不是氣壓計造成壓力改變?
因果理論需求開始浮現之際,統計學也在此刻誕生。高爾頓和皮爾森沒有問為什麼,而是宣告這些問題無法回答,同時開發與因果性無關的興盛學科,稱為統計學。而因果問題被宣告為「不科學」。
統計學盲目崇拜這個觀察到的常識。統計學告訴我們相關不等於因果,卻沒有說因果到底是什麼。在統計學教科書的索引裡你找不到「原因」。學生不准講X是Y的原因,只能說X和Y「相關」或「有關聯」。由於這樣的禁忌,統計學認為不需要數學工具來處理因果問題。
因果革命(Causal Revolution)不再否定我們具備理解原因與結果的天賦,而是主動接受它。想回答問題,單單只有資料探勘是不夠的。
因果圖是簡單的點與箭頭圖,概略說明我們現有的科學知識。點代表我們想知道的量,稱為變項(variable),箭頭代表變項間已知或可能存在的因果關係,也就是哪個變項「聽從」哪個變項。
還有一種符號式的「查詢語言」可以描述我們想解答的問題。舉例來說,如果我們想知道某種藥物(D)對壽命(L)的影響,則這個查詢可用符號寫成:P(L I do (D))。do運算符號代表我們主動介入,而非被動觀察,P(L I do(D))(刻意造成此現象)和條件機率P(L I D)(觀察到某個現象)完全不同。例如觀察到氣壓計讀數降低則風暴發生的機率會提高,然而刻意降低讀數是影響不了這個機率的。
因果革命的成就,是說明如何不需實際介入,就能預測這項介入的效果。以及若需回顧過去的「反事實」(如果……會怎樣?),我們可以藉助演算法模擬。
推論發動機的目的,就是利用「觀察到的數據」去算出「干預後的結果」。
「推論發動機」Inference Engine有三種輸入:
- 透過知識、經驗或觀察結果(人類已有的理解)提出「假設」,經過「因果模型」輸出「可驗證含意」,可以用在資料中形成觀察得到的型態或相依性來驗證與修改模型。
- 「查詢」是我們想解答的科學問題,必須以因果詞彙寫成式子。輸出為「是或否」,說明我們提出的查詢理論上是否可在資料沒有缺陷和限制的前提下,依據現有的因果模型回答。也就是如果為否,要回到假設和因果模型。如果為是,會產生「被估量estimand」,被估量是純數學公式,可以想成以可取得的任何假設資料去解答因果查詢產生答案的方法。被估量和因果問題直接對應,獨立於數據和統計方法。(被估量不是數值,是「正確答案理論上應該怎麼算」,傳統統計沒有「被估量」這個層次)
- 「資料」告訴我們這類查詢的量,而被估量負責告訴我們如何把這些統計量化成表達式。出爐的結果是「統計上的估計值」,如果我們的模型正確,資料也充足,就可得出因果查詢的答案。
請注意蒐集資料的時間,一定是在確立因果模型、提出想解答的科學查詢,以及確定被估量之後。因為資料對原因和結果一無所知,資料沒有資訊能說明介入造成的影響。這個過程和先前提過的傳統統計學方法相反。傳統統計學方法連因果模型都沒有。
第一章:因果階梯
介紹組成因果階梯的三個步驟:觀察、介入和反事實,以及因果圖的基礎概念和工具。
「我們比資料聰明。資料不了解原因和結果,但人類了解。」
哈拉瑞在《人類大歷史》中推測,認知革命其中最重要的關鍵是人類祖先能設想不存在的事物,因而得以溝通得更順暢。無論是否同意哈拉瑞的理論,「想像」和「因果關係」之間的關聯都不言可喻。除非我們想像得到事物的結果,否則探究它的原因沒有意義。
因果認知能力有三個層級,每個層級都具備前一個層級缺少的能力。
關聯(觀察):
- 探知環境中的規律,看到某件事可能改變另一件事的機率。
- 統計學家根據搜集和分析資料,找出變項間的關聯。
- 如果我看到……會怎麼樣?(依據被動的觀察結果做預測)
- 看到X會不會改變我對Y的相信程度?
- 如何從症狀了解疾病?貓頭鷹觀察老鼠移動思考牠的下一步。電腦思考圍棋哪一步取勝機率較高。深度學習演算法。
介入(實行):
- 預測可以改變環境現狀的效果,並從中選擇想要的結果。
- 「看見煙」與「製造煙」透露的火災發生可能性是完全不同的。
- 準確的因果模型可以幫助我們以第一層資料回答第二層查詢。
- 如果我做……會怎麼樣?怎麼做?
- 如果我做X的話Y會怎麼樣?怎麼讓Y發生?
- 如果我服用阿斯匹靈,頭就不痛了嗎?如果禁止抽煙會怎麼樣?
反事實(想像):
- 想像、回想、理解。第三層的查詢需要比較眼前世界和反現實世界。
- 如果當時我做……會怎麼樣?為什麼?
- 造成Y的原因是X嗎?如果X沒有發生會怎麼樣?如果當時我的反應不同會怎麼樣?
- 讓我頭不痛的原因是阿斯匹靈嗎?如果我這兩年沒有抽煙的話會怎麼樣?
迷你圖靈測驗
- 機器(和人)應該如何呈現因果知識,才能像三歲小孩一樣快速取得需要的資訊,正確回答問題,並且毫不費力地實行?這就是本書要探討的主要問題。
- 迷你圖靈測驗僅限於因果推理,且允許參與者以任意方式編碼故事,讓機器不需要由本身經驗擷取故事。
- 讓人工智慧處理認知問題,必須先研究「呈現」問題。人類大腦一定具有某種密集資訊呈現法和高效率程序,來正確解譯每個問題,再從儲存的呈現取出答案。因此要通過迷你圖靈測驗,我們必須賦予機器同樣高效率的呈現法和答案擷取演算法。目前唯一通過迷你圖靈測驗的呈現法就是「因果圖」。
- 假設有個囚犯即將被行刑隊槍決。要完成這件事,一定會發生一連串事件。首先,法院必須下令執行。命令下達給隊長,隊長下令行刑隊的士兵(A和B)開槍。我們假設這兩人都是遵守命令且槍法很好的槍手,因此他們一定會遵守命令開槍,而且只要其中有一人開槍,囚犯就會死亡。〈圖1.4〉呈現前面敘述的故事。每個未知數(CO、C、A、B、D)都是真/假變項。

- 我們可以用這張圖開始回答階梯上每一層的因果問題。
- 1.我們可以回答關聯問題(亦即可由某個事實知道關於另一個事實的哪些事情)。如果囚犯死亡,是否表示法院已經下達命令?我們(或電腦)可以檢視圖形,追溯每個箭頭背後的規則,再運用標準邏輯,斷定我們查詢之事的答案是「是」。
- 2.可以提出關於介入的問題。如果士兵A沒有等待隊長下令就自作主張開了槍,那會怎麼樣?這個問題有點矛盾。如果想讓電腦理解因果關係,必須先教它打破規則。我們必須教導電腦「只是觀察事件」和「造成事件」之間的差異。我們會告訴電腦:「造成事件時,去除所有指向事件的箭頭,繼續以一般邏輯分析,當成箭頭原本就不存在。」因此我們會擦去所有指向被介入變項(A)的箭頭。此外我們也會自己把變項設定成指定值(真)。這項改造的基本原理很簡單:「造成某個事件」的意思是我們排除其他影響,只保留其中一個,也就是促使事件發生的影響。〈圖1.5〉是依據這個範例畫出的因果圖,這次介入必定會造成囚犯死亡。這結論和我們憑直覺判斷士兵A沒有接受命令就開槍會造成囚犯死亡的結論相同,因為這次改造沒有更改從A到D的箭頭。此外,我們還判斷士兵B(極有可能)不會開槍,A的決定應該都不影響模型中非屬A開槍效果的變項。如果我們看見A開槍,就能斷定B也開了槍。但如果是A決定開槍或我們造成A開槍,則事實剛好相反!這是「看見」和「實行」之間的差別。電腦必須了解這樣的差別,才能通過迷你圖靈測驗。單單採集大數據是無助於我們登上階梯,回答上述問題的。假設我們是日復一日蒐集行刑現場紀錄的記者,我們的資料包含兩種事件,不是五個變項全部為真,就是全部為假。如果不知道誰聽命於誰,我們(或任何機器學習演算法)就不可能藉由這些資料,預測說服槍手A不開槍的結果。

- 3. 我們提出一個反事實問題。假設囚犯已經死亡。由此我們可以(運用第一層)斷定A開槍了、B開槍了、隊長下了命令,法院也發出命令。但如果當時A決定不開槍會怎麼樣?這個問題必須比較真實世界和A沒有開槍的虛構世界。在虛構世界中,畫向A的箭頭被擦去,讓A不用聽命於C。接著A設定為假,讓它的過往跟真實世界中相同,因此虛構世界看來是〈圖1.6〉的樣子。要通過迷你圖靈測試,電腦必須斷定士兵B開槍會殺死囚犯,所以囚犯在虛構世界中也會死亡。因此即使士兵A改變心意也救不了囚犯的命。

- 4.這三個例子說明,我們必須教電腦如何選擇性地違反邏輯規則。電腦不擅於打破規則,但小孩則非常擅長。
因果模型的箭頭背後是機率。我們畫出從X指向Y的箭頭時,是在表達某個機率規則或函數指出X改變時,Y會如何跟著改變。大多數狀況下必須由資料來推測規則。但因果革命最令人好奇的特色是:在許多例子中,我們可以完全不指定這些數學細節。因果圖本身的結構,通常就能讓我們推測出各種因果和反事實關係,包括單純或複雜、確定性或機率性、線性或非線性等。
我相信在認知和哲學方面,因果概念比機率概念更基本。我們還不懂語言、也不會數學的時候,就開始學習原因與結果。因果圖傳達的知識,通常比機率分布呈現的知識強固得多。只要因果圖沒有改變,就可把新資料套用在被估量上,產生新的估計值來回答查詢。因為這樣的強固性,所以我猜測人類的直覺是以因果關係為依據,而不是統計上的關係。
機率與因果
哲學家試圖運用「機率提高」概念,以機率來定義因果關係。也就是如果X提高Y的機率,就可說X是Y的原因。我們認為機率提高應該可讓我們由因果階梯的第一層登上第二層。這樣的直覺導致我們嘗試幾十年都宣告失敗。導致嘗試失敗的原因是它的表達方式。哲學家大都以條件機率P(Y|X)> P(Y)表示,這樣的解釋是錯的,因為「提高」是因果概念,代表X對Y的因果影響力 。P(Y|X)> P(Y)只提到觀察,代表「如果我們看見X,則Y的機率提高」。但Y的機率提高或許源自其他理由。問題就在這裡!X和Y的共通原因或干擾因子,是最頭痛的問題。它使哲學家退回第一步,試圖消除「其他原因」。試圖以第一層概念來定義因果關係,一定會失敗。因為共同創造也是因果概念,因此無法寫出機率公式。
解決的方法是使用do運算符號。我們可以說如果P(Y|do (X)) > P(Y),則X是Y的原因。因為介入是第二層的概念,所以這個定義能傳達機率提高對因果的詮釋,也可透過因果圖轉化成可以運算。
哲學家把因果關係概念化成數學時,太早決定使用機率來作為處理不確定性的語言。貝氏網路中的世界裡,所有問題都可簡化成機率或變項間相關程度,但不能登上因果階梯的第二層或第三層。
第二章:從海盜到天竺鼠
講述統計學如何忽視因果性,並對資料導向的科學造成深遠影響。介紹首先繪製因果圖的遺傳學家萊特。
中央極限定理:無論原始數據的分布如何,只要隨機抽樣的樣本數夠大,這些樣本「平均數」的分佈,最終都會趨向常態分佈(鐘形曲線)。
回歸均值指的是,如果一個隨機變數在第一次測量時產生了極端的數值,那麼在第二次測量時,它的數值會傾向於往「平均值」靠近。這是因為任何表現都包含「真實實力」和「隨機運氣」,不需要因果解釋。例如我們可以依據父親的身高預測兒子的身高,反之亦然,就回歸均值的斜率而言,原因和結果沒什麼差別。
相關性反應的是變項間的交互可預測程度,不受變項彼此間的關係影響。從高爾頓提出客觀的相關概念開始,統計學家都以其門徒皮爾森的「相關係數」表達變項的關聯程度,原因與結果成為過時又不科學的觀念。皮爾森認為因果關係只是不斷反覆,而且無法證明它的確定性。

萊特於1920年代首次以因果路徑圖說明決定天竺鼠毛色的因素(圖2.7,上圖),是二十世紀科學踏上因果階梯第二層的第一步。他把路徑係數解釋為由某個變項解釋的變化量,在當時看來很合理,但現代的因果解釋則不大一樣:路徑係數代表假想介入對來源變項產生的結果。科學家有時不完全清楚所有變項之間的關係脈絡。萊特主張,在這類狀況下可用探索模式使用路徑圖,先假想某些因果關係,再找出變項之間的預測相關。如果預測相關與資料抵觸,就證明我們假設的關係不正確。
萊特的研究重點和這本書一樣,是以數學語言呈現實際因果知識,同時解答具實用價值的因果查詢(結合統計相關知識和因果關係知識以取得某些結果),而非因果發現(由統計相關來推論因果關係。證明X是Y的原因,或是從零開始,找出Y的原因)。
因果路徑可以判定數個因素的相對重要程度。範例:天竺鼠在子宮中多待一天,對出生時的體重有何影響?(圖2.8)

我們只能測量到天竺鼠在子宮中多待一天平均體重多5.66克。但體重也和懷孕過程的環境有關,幼鼠較晚出生通常是同窩幼鼠數量較少。現在的問題是「懷孕期間P對出生體重X的直接影響是什麼?」現有的資料(每天5.66公克)無法指出直接影響,只能提供包含同裔幼鼠總數L造成的偏差的相關。
在〈圖2.8〉中,直接影響以路徑係數p代表,對應的是路徑P→X。同窩幼鼠總數造成的偏差對應於路徑P→L→Q→X。雖然我們無法測量Q,但可利用代數計算出未知的路徑係數。而偏差量等於這條路徑上所有路徑係數的積。因此,總和相關是這兩條路徑上所有路徑係數的和,從代數看來,p + (l x I' x q) = 每天5.66公克。萊特成功算出p是每天3.34公克,這是第一次用數學成功連結因果關係和相關。
因果分析和相關及主流統計學中大多數的工具不同,因果分析要求使用者提出主觀意見。使用者必須繪製因果圖,呈現自己對於要探討的因果過程的想法。然而貝氏連結也將主觀機率帶進統計學界,貝氏分析的標準規範是這樣的:以往想法+新證據→修正想法。貝氏統計讓我們以客觀方式結合觀察證據與以往知識(或主觀想法),形成新的想法。
即使資料量增加,因果資訊中的主觀成分也不一定會隨時間消失。相信不同因果圖的兩個人可以分析相同資料,但永遠不會獲得相同的結論,無論資料量多大都一樣。科學客觀性支持者的這類預期相當可怕,也說明他們為何不願意接受自己終究必須依靠主觀因果資訊。
第三章:從證據到原因
說明作者如何因為研究人工智慧和貝氏網路(不確定性推理)而轉入因果性陣營。簡介貝氏法則和貝氏推理方法。
貝氏網路的應用範圍極廣,包括辨識罹難者DNA、語音辨識軟體、垃圾郵件過濾程式、氣象預報、探勘油丼,以及美國食品藥物署批准醫療器材的過程等、手機置信度傳播解碼、谷歌演算法等等。
貝斯研究的是兩個事件的機率,其中一個事件(假設)發生在另一個事件(證據)之前,讓他著手分析逆機率(由結果演繹出某個原因的機率)的主要原因,就是因果。
範例(表3.1)

- 資料不受因果不對稱影響,為了提出通用法則,我們可以令P(T)代表點茶的機率、P(S)代表點司康的機率。如果已知某位顧客點了茶,則P(S|T)代表他點司康的機率,反之亦然。如此可得,P(S AND T) = P(S|T) P(T) = P(T|S) P(S)。這個方程式稱為貝氏法則,它提供了逆機率問題的通解。它告訴我們,如果我們知道已知T時S的機率,應該就能得知已知S時T的機率,當然前提是我們已經知道P(T)和P(S)。這應該是貝氏法則在統計學中最重要的功能:我們可以選擇自己的判斷比較確定的方向,直接估算這個方向的條件機率,再運用數學求出自己的判斷比較不明確的方向的機率。在面對有不確定性的證據(證據無法完全肯定或否定假設),貝氏法則可以幫助我們修正我們對假設的置信度。
- 茶館範例的理論缺陷是把機率解釋成置信度,以P(S)等符號表達的機率語言,通常會傳達機率賽局中的頻率概念,但「已知我知道」這個敘述具知識性,應該受知識邏輯規範,而不是頻率和比例邏輯。
貝氏法則其實是依據證據隨時更新想法的基準法則。換句話說,我們不應該只把貝氏法則視為「條件機率」的簡便定義,而應該視為忠實呈現「已知我知道」這個敘述的經驗主張。這個主張指出,一個人發現T之後對S的置信度,永遠不低於他發現T之前對S與T兩者的置信度。此外它還指出,證據T越令人驚奇(也就是P(T)越小),我們應該越相信它的原因S。如果T是奇蹟(「基督死後復活」),而S是關聯極大的假設「基督是上帝之子」),則如果我們確定T為真,則我們對S的置信度將大幅提高。奇蹟越神奇,解釋這個奇蹟的假設就越可信。
貝氏定理的實際缺陷則是如何決定事前機率,這取決於個人不同的過往經驗。
範例:醫學檢驗問題
正向機率是已知罹患這種疾病時,檢驗結果為陽性的機率P(檢驗|疾病)。這是所謂醫學檢驗的敏感度(sensitivity)。敏感度通常對各種患者都相同,因為它僅取決於檢驗與疾病相關之生理異常的儀器之技術能力。逆機率則是我們比較關心的部分:已知檢驗結果是陽性而確實罹患這種病的機率是P(疾病|檢驗),代表非因果方向的資訊流,由檢驗結果指向罹病機率。這個機率不一定每個患者都相同。即使檢驗結果同樣為陽性,我們看待有家族病史的患者會更加警覺。
假設一名四十歲女性接受乳房X光攝影,檢查是否罹患乳癌D,檢驗結果為陽性,這位女性應該多相信這個假設?我們可以改寫貝斯法則來回答這些問題:(D的修正後機率)=P(D|T)=(概似比)×(D的事前機率)。概似比(likelihood ratio)的計算方式是P(T | D)/ P(T),用以計算疾病患者檢驗結果為陽性的可能性比一般人高出多少。根據數字計算,這位女性罹患癌症的機率略少於1%,我們對這個結果感到驚訝,是因為我們經常弄混正向機率和逆機率。我們對正向機率的研究和紀錄都相當澈底,但做出個人決定的依據則是逆機率。(圖3.3)但如果是高危險群,D的事前機率提高則陽性檢查結果將使罹病機率大幅提高。

作者開發的貝氏網路是階層式的,箭頭由層級較高的親節點指向層級較低的子節點。每個節點都把訊息傳送給鄰近所有節點(包括上一層和下一層),說明目前對它記錄的變項有多大的置信度。接收者依據訊息傳送方向,以兩種方式處理這個訊息。如果訊息由親節點傳向子節點,子節點會運用條件機率更新置信度,如同茶館範例那樣。如果訊息由子節點傳向親節點,親節點則會把自己的置信度乘以概似比,將結果當成新的置信度,如同乳房攝影範例。把這兩個法則反覆套用在網路中的每個節點,稱為置信度傳播(belief propagation)。貝氏網路和因果圖不同,不假設箭頭具有因果意義。箭頭只代表我們知道正向機率P(司康|茶)或P(檢驗|疾病)。貝氏法則告訴我們如何把事前機率乘以概似比,藉此反轉這個程序。
貝氏網路最有趣的功能就是回答逆機率問題,例如當我們有「行李在轉盤上」的條件機率表(表3.3),我們可以計算經過X分鐘後還是沒有拿到行李,那麼行李在飛機上的機率是多少(圖3.6)。


和其他機器學習技術相比,貝氏網路是透明的。在貝氏網路中,我們能觀察每個步驟,了解每項證據如何以及為何改變網路的置信度。
連接的類型
A → B → C:B是把A的影響傳達給C的機制或「中介變項」。有個常見的例子是:起火一冒煙一警報。雖然我們通常稱這為「火警」,但其實應該是煙警。這個觀察結果指出一個關於「鏈」的重要概念:中介B把關於A的資訊與C「隔離」開來,也把關於C的資訊與A隔離。舉例來說,如果我們知道「冒煙」的值,則知道「起火」的值不會讓我們提高或降低對「警報」的置信度。當只看表格中「冒煙」=1的資料,這方法稱為將某個變項條件化(conditioning),此時不論「起火」是0或1,「警報」永遠等於1。同樣地,我們可說已知「冒煙」值時,「起火」和「警報」為條件獨立(conditionally independent)。如果要讓機器自動修正置信度,這點非常重要。條件獨立讓機器取得許可,能專注於相關資訊,捨棄其餘資訊。對人類而言,判斷無關資訊的理解力(理解隔離效應)是與生俱來的,但機器沒有這樣的直覺。
A ← B → C:這類連接稱為分叉(fork),B通常稱為A和C的共同原因或干擾因子。干擾因子可在沒有直接因果連結的A和C之間,產生統計相關。例如「鞋子尺寸←兒童年齡→閱讀能力」。鞋子尺寸比較大的兒童,閱讀能力也比較好,但兩者不是因果關係。我們可以將兒童年齡條件化,消除這類假性相關。如同鏈結的例子,已知B時,A和C為條件獨立。
A → B ← C :稱為衝突(collider)的連接。例如:才華→成名←外貌。我們認為才華和外貌都能讓演員成功,但在一般大眾外貌和才華彼此完全無關。如果A和C一開始完全無關,則將B條件化將使A和C變成相依(負相關)。這類負相關有時候稱為衝突偏誤(collider bias)或是自圓其說效應(explain-away effect)。
每種鏈接代表一種因果流動方式,並在資料中留下條件相依和條件獨立的標記。它們讓我們得以檢驗因果模型、發現新模型,以及評估介入結果等等。第七章中將會介紹d分離(d-separation)。這個概念告訴我們可以針對模型中的已知路徑型態,預測資料中會有哪種相依型態。原因和機率之間的這個基本連結,就是貝氏網路對因果推論科學最重要的貢獻。
貝氏網路和因果圖之間的主要差別,在於建構方式和用途。貝氏網路其實就是一大張機率表的簡明呈現。因果圖中的箭頭,則僅代表子代節點與親代節點代入特定方程式之值的機率,而且此關係為充分。也就是說,知道子代的其他上代不會改變方程式。同樣地,兩個節點之間沒有箭頭,代表如果我們知道親代的值,則這兩個節點互相獨立。然而,如果把這張圖畫成因果圖,則建構和解譯最終圖形的想法都會改變。在建構階段,我們必須檢視每個變項,弄清楚它必須「探聽」哪些變項。
這個探聽比喻囊括因果網路傳達的所有知識,其餘都可推論而得,有時也可藉助資料得出。請注意,如果倒轉鏈中的箭頭方向,則結構中的因果讀值將大幅改變,但獨立狀況則維持不變。這有兩個極為重要的意義。第一,這告訴我們因果假設不能任意創造,必須接受資料檢驗,而且可能遭到否決。第二,因果圖的圖形特性說明了哪些因果模型能由資料區分,哪些模型無論資料多龐大都無法區分。舉例來說,分叉A←B→C和鏈A→B→C代表相同的獨立狀況,所以我們無法單單由資料區分這兩種圖形。
貝氏網路對因果推論最重要的影響在於,我們找出因果圖的圖形結構和資料間的關係後,就能模擬微調效果而不需實際操作。我們可以執行一連串簡短的條件化作業(數學運算),預測行動或介入的結果,不需實際進行實驗。
第四章:干擾與去干擾
介紹統計學對因果推論的重大貢獻:隨機對照試驗。從因果圖的觀點說明RCT為何能不受干擾偏差影響而估計因果效應,其背後更基本的原理。
統計學家容許在隨機控制試驗(RCT)中討論因果。用因果模型的新科學之前,應該先理解不採用因果模型的舊科學有哪些優點及限制:為什麼必須隨機化才能斷定A是B的原因?RCT排除的威脅(稱為干擾)有什麼特質?
在對照實驗中,如果某個變項同時影響接受處理者和實驗結果,就會出現干擾偏差。使用因果圖可以輕易看出干擾(confounding)因子,圖4.1中Z就是X和Y的干擾因子。

為了排除干擾,統計學家的典型做法就是:舉凡可量測的所有變項,都拿來對照。現在絕大多數研究都採行這種做法。這個程序相當簡便,但既浪費又容易出錯。然而,統計學家同時也嚴重低估對照的重要性。即使正確執行對照,他們也完全不願探討因果性。研究人員大多相信,觀察性研究永遠無法解釋因果關係。本書作者認為如果在有充分科學根據的因果圖中找出足夠的去干擾因子,蒐集這些因子的資料,再以它們執行適當調整,就可以大膽表示已經計算出X→Y的因果效應。
隨機化有兩個效益。第一,它能消除干擾偏差(向大自然提出正確的問題)。第二,它讓研究者得以量化不確定性。如果提出的問題正確,即使獲得的答案偶爾不對,問題也小得多。我們仍然可以估計答案中有多少不確定性,因為不確定性來自隨機化程序(已知),而不是來自土壤特性(未知)。(圖4.4和4.6)


「模型3」呈現的世界中,「肥料」和「產量」間的關係沒有干擾(亦即「肥料」和「產量」沒有共同原因)。也就是說,在圖4.6呈現的世界中,觀察到肥料=1和實行肥料=1沒有差別。隨機化最大優點是,它能切斷所有與隨機化變項間的連結,包括我們不知道或無法量測的連結。
干擾是我們想評估的對象(因果效應)和我們以統計方法實際評估的對象兩者之間的差異。如果我們無法以數學表達想評估的對象,就無法定義造成差異的因素。
以因果的邏輯,而非統計學概念,才能為干擾下定義。我們觀察到的量,是已知處理時某個結果的條件機率P(Y|X)。我們想對大自然提出的問題,與X和Y間的因果關係有關,這個關係以介入機率P(Y|do(X))表示。因此,干擾的定義應該就是造成兩者不一致的因素:P(Y|X)不等於P(Y|do(X))。
干擾最常見的敘述性定義共有三部分。X(處理)和Y(結果)的干擾因子是變項Z。此變項Z(1)在整個群體中與X相關;(2)在未接受X處理的民眾中與Y相關;(3)Z不應該位於X和Y間的因果路徑上。中介變項就能滿足條件1和2,但不是干擾因子。如果以Z執行對照,會導致我們斷定X 對Y沒有影響。
可交換性exchangeability
格林蘭和和羅賓斯在1986年的論文提出,以可交換性來處理干擾。他們回歸對照組應該與處理組相仿的原始想法,但以反事實添加變化(第一章提過,反事實位於因果階梯的第三層,因此能察覺干擾)。可交換性使研究者必須探討處理組,想像如果沒有接受處理,組內成員會出現什麼狀況,再判斷結果是否和(實際上)沒有接受處理的人相同。這時我們才能說研究中沒有干擾存在。

我們可以把處理X想成流感疫苗、結果Y想成染患流感。可交換性的意思是:具有每種標記的民眾的比例(分別是百分比d、c、p和i)在處理組和對照組中應該相同。比例必須相同,處理組和對照組互換時,結果才會相同,否則就代表處理組和對照組不相仿,我們對疫苗影響的估計將受到干擾。必須注意的是這兩組可能有許多方面不同,例如年齡、性別、健康狀況等。只有d、c、p、i相等,才能決定兩組是否可以交換。因此可交換性代表兩個組別的四個比例完全相同,如此將可大幅降低評估兩組間許多差異造成的複雜性。
這個定義的重大成就是讓得以舉出明確範例,證明以往的干擾定義不夠完整。然而這個定義無法轉換到實用面,這些標記和比例數字並不存在。
後門準則
do運算子消去指向X的所有箭頭,使所有關於X的資訊都無法朝非因果方向流動(虛假的相關)。隨機化也有相同的效果。如果選擇正確的變項,執行統計調整也會如此。
防止資訊通過連接的規則
- (a)在鏈A → B → C中,以B執行對照,可防止關於A的資訊傳送到C,反之亦然。
- (b)在分叉或干擾連接A ← B → C中,以B執行對照,可防止關於A的資訊傳送到C,反之亦然。
- (c)在衝突A → B ← C中,規則正好相反。變項A和C起初互相獨立,但如果以B執行對照,在自圓其說效應影響下,資訊將開始流過這個「管道」,讓A探聽到C的資訊,反之亦然。
- (d)以某個變項的後代(或代理)執行對照,如同以這個變項本身執行「部分」對照。例如以「政黨參與」當成「政治信仰」的代理。
要去除X和Y兩個變項的干擾,只需阻斷兩者間的所有非因果路徑,但不擾亂因果路徑。後門路徑是由X到Y、且以指向X的箭頭為起點的路徑。如果我們阻斷所有後門路徑(因為後門路徑容許X和Y之間存在假關聯),就可去除X和Y的干擾。
遊戲1: B通過干擾因子的古典定義,但沒有通過後門準則,並非干擾因子。

遊戲2: 圖中有條後門路徑X ← A → B ← D → E → Y。這條路徑已經被位於B的衝突阻斷,所以我們完全不需要執行對照。以B或C執行條件化,雖然對照發生在X之前,但還是會開啟非因果路徑,進而干擾X和Y。

遊戲3: 有條後門路徑X ← B → Y,必須以B執行條件化阻斷,或執行RCT,以A執行對照只能部分消除干擾偏差。

遊戲4: 圖中只有一條後門路徑,而且己經被位於B的衝突阻斷,所以我們不需要執行對照。B通過傳統干擾因子的定義(與X有關,經由不通過X的路徑與Y相關,不位於XY的因果路徑上),但以B執行對照時,B就成了干擾因子。範例:繫安全帶(B)對吸菸(X)或肺病(Y)沒有因果效應,它只能指出一個人對社會規範(A)以及安全健康措施(C)的態度。有些態度可能影響對肺病(Y)的敏感性。實際上,繫安全帶確實同時與X和Y相關。的確,2006年在菸草訴訟所做的一項研究中,繫安全帶就是第一批執行對照的變項之一。如果同時以A或C執行對照,就能以B執行對照。但在安全帶範例中,A和C兩個變項不大可能觀察得到。

第五章:煙霧彌漫的爭議
從無法做RCT的吸煙爭議看清因果性的重要性。
1960年代,反對吸菸導致癌症這個假設的科學論點中,最重要的說法就是:可能有不明因素同時導致尼古丁成癮和肺癌。
1965年,美國的特別顧問委員會報告提出:統計方法無法證明關聯中的因果關係。關聯中的因果顯著性是判斷問題,無法以統計機率說明。
第六章:破解悖論
由有趣的悖論提醒我們,人類直覺是以因果為基礎。
因果悖論凸顯出與機率和統計邏輯衝突的直覺式因果推理型態,反應了因果關係與關聯間的拉扯。
解決這個悖論的關鍵在於:我們不僅必須考慮資料,還要考慮產生資料的過程,也就是遊戲規則。規則告訴我們資料可能是什麼,但還觀察不到。統計學家已經習慣「簡化資料」,並且忽略資料產生的過程。
蒙提霍爾問題
「假設你正在參加遊戲節目,要從三扇門中選擇一扇。其中一扇門裡面是汽車、另一扇是山羊。你選擇了1號門後,已經知道門裡面有什麼的主持人打開3號門,門裡面是山羊。這時主持人說:『你想換2號門嗎?』請問這時換另一扇門有利嗎?」

圖6.1是遊戲的因果圖,代表打開的門同時受到你的選擇和製作人的選擇影響。「打開的門」是衝突,我們取得這個變項的資訊後,所有機率都成為這項資訊的條件機率。但我們以衝突執行條件化時,會在其親代之間造成假性相依。這個相依從機率可以看出:如果選擇1號門,汽車位置在2號門的機率是1號門的2倍;如果選擇2號門,汽車位置在1號門的機率則是2倍。
蒙提霍爾在我們選擇1號門後,就不能打開它了,但他可以打開2號門。他沒有打開2號門這點,使得他更可能打開3號門,因為他不得不這麼做。因此現在有更多證據證明汽車在2號門裡面。貝氏分析的主旨就是這樣:任何假設一旦通過可能威脅其正確性的檢驗,其可能性就會提高。威脅越大,通過檢驗後的可能性就越高。2號門原本可能被證實為假(亦即蒙提霍爾可以打開它),但1號門不會。因此後來2號門成為比較可能的位置,但1號門沒有改變。汽車在1號門裡面的機率依然是1/3。
「你選擇的門」和「汽車位置」之間,沒有直接或透過共同原因的因果連結,所以我們會覺得很難理解其中有機率關聯。我們的大腦不容易接受無原因的關聯。
柏克森悖論
我們交往過的人當中,有魅力的常常都很差勁?因為我們選擇交往對象時通常取決於兩個因素:魅力和個性。我們會冒險跟個性差但有魅力或個性好但沒魅力的人交往,但不會選擇個性差又沒魅力的人。我們已經挑去兩個反面的結果,這樣會在魅力和個性之間造成假性負相關。
辛普森悖論

表6.4中,對照組有5%的女性(1/20)後來患心臟病,服用藥物的女性中則有7.5%罹患;而在男性中,對照組有30%得心臟病,處理組則有40%。但表格的第3行。對照組中有22%罹患心臟病,處理組中只有18%。所以如果我們以最底下一行來判斷,藥物D似乎能降低整體人口的心臟病風險,卻對男性和女性都不好。
如果我們使用因果標記和圖形,就能清楚明白地斷定藥物D究竟能防止還是導致心臟病。基本上,辛普森悖論是與干擾有關的謎題。
性別對心臟病風險(男性風險較高)以及患者是否選擇服用藥物D有影響。在研究中,女性服用藥物D的意願顯然較高,男性較低。因此性別是「藥物D」和「心臟病」的干擾因子。要毫無偏差地正確估計「藥物」對「心臟病」的影響,必須以干擾因子執行調整。我們可以分別觀察男性和女性的資料,再取其平均值後執行調整(因為男性和女性在一般大眾中比例相同):不服用藥物D的心臟病比例為17.5%(5%和30%的平均值),服用時的心臟病比例則為23.75%(7.5%和40%的平均值)。因此藥物對所有人都不好。

表6.6中,雖然數字一樣,但血壓在這裡是中介變項而不受干擾因子,因此沒有必要以血壓條件化來劃分資料,因此得出和表6.4相反的結論,藥物有效。
辛普森悖論提醒我們合併資料或劃分資料產生的統計趨勢無法代表因果效應的狀況,實際對錯應該依資料產生過程而定。
在悖論中,因果圖都能告訴我們必須使用的程序。然而對於接受「傳統」(也就是不看模型)方法學訓練且不想使用因果性眼鏡的統計學家而言,兩個問題的資料看來明明完全相同,但一個問題的正確結論對另一個問題而言是錯的。
第七章:超越調整
開始登上因果階梯,開始探討關於介入的問題,其重點是預測以往未曾嘗試的行動和策略可能產生什麼效果。解釋因果推論發動機的內在。
介入層是預測以往未曾嘗試的行動和策略可能產生什麼效果。導致我們分不清楚觀察和執行的主要障礙是干擾。
後門調整公式
只要確定資料包含足夠的變項組(稱為去干擾因子),可以阻斷介入和結果間的所有後門路徑,就可以採用這種方法。
使用這個方法時,必須先估計介入行動在去干擾因子的每個「層級」或分層的效果,進而量度介入行動的平均因果效應。接著依據每個分層在群體中所占的比例執行加權,並計算所有分層的加權平均。舉例來說,如果去干擾因子是性別,就先估計男性和女性的因果效應。接下來,如果群體(照常)是男女性各半,就把兩者平均。如果男女性比例不同(假設2/3是男性,1/3是女性),則必須先取相應的加權平均值,再估計平均因果效應。
平滑函數中,科學家常以線性近似與資料擬合,如此每個因果效應都能以單一數字(路徑係數)代表。回歸線的方程式是Y=aX+b。參數a可告訴我們平均觀察趨勢,如果Y和X沒有干擾因子,我們就能以這個結果當成X增加一單位的介入行動時,其結果的估計值。當有干擾因子Z時,相關係數無法告訴我們平均因果效應,只能透露平均觀察趨勢。解決的辦法是,只要畫出全部三個變項,每個(X,Y,Z)值代表空間中的一個點。如此一來,回歸線將變成回歸面,方程式則變成Y=aX+bZ+c。我們可由資料輕易算出a、b、c。因此,我們可以跳過Z的每一層級都要執行一次Y對X回歸的繁瑣程序,直接計算回歸係數的加權平均。大自然早就幫我們完成所有平均工作了!我們只要算出最符合資料的平面就好,平面方程式Y = aX+bz+c中的係數可依照Y對X的趨勢自動調控,解釋干擾因子Z,如果Z是唯一的干擾因子,則a就是X對Y的平均因果效應。(在多維空間中,統計軟體會尋找一個最符合資料點的「平面」。在這個平面上,係數a衡量的是「當 Z 固定不動時,X 每變動一單位,Y 會變動多少」。)
回歸係數無論是否經過調整,都只是統計趨勢,本身並未傳達因果訊息。回歸係數必須具備兩個要素才能談因果性。第一,路徑圖必須代表可信的真實狀況。第二,已調整變項Z(可能不只一個)應該符合後門準則。因此,萊特區別路徑係數(代表因果效應)和回歸係數(代表資料點的趨勢)非常重要。路徑係數基本上和回歸係數不同,但通常可由回歸係數計算得出。
前門準則
如果有無法阻斷的後門路徑,調整就無法發揮作用。

圖7.1中,我們假設吸菸基因不影響焦油沉積,但並未排除與基因無關的隨機因素,第二個假設是吸菸只能透過焦油沉積增加導致癌症。由於沒有基因的資料,我們無法阻斷後門路徑,以干擾因子的影響執行調整。
在這個例子中,前門是直接因果路徑「吸菸」→「焦油」→「癌症」。因為「吸菸」到「癌症」間沒有已阻斷的後門路徑,而「吸菸」←「吸菸基因」→「癌症」→「焦油」這個路徑已被位於「癌症」的衝突阻斷。所以我們連後門調整都不用做,只要觀察P(焦油|吸菸)和P(焦油|不吸菸),兩者間的差就是「吸菸」對「焦油」的平均因果效應。
這張圖也可協助我們估計「焦油」對「癌症」的平均因果效應。我們可用「吸菸」執行調整,藉以阻斷從「焦油」到「癌症」的後門路徑「焦油」←「吸菸」←「吸菸基因」→「癌症」。我們從第四章學到的東西這時就能派上用場:我們只需要充足的去干擾因子組(亦即吸菸)資料,後門調整公式就可告訴我們P(癌症|do(焦油)) and P(癌症|do(無焦油))。兩者間的差就是「焦油」對「癌症」的平均因果效應。
現在我們知道,焦油沉積可能性的平均值增加源自吸菸,而癌症的平均值增加則源自焦油沉積。我們是否可以結合兩者,得出癌症源自吸菸的平均值增加?答案是可以。我們可以運用數學方式計算外出不包含do運算子的機率。
這個範例的重點是說在適當的狀況下,即使沒有干擾因子的資料,數學也可以消除干擾因子的影響。前門調整讓我們能以無法觀察的干擾因子、包括我們甚至不知道的干擾因子,來執行對照。隨機對照試驗(RCT)被視為因果效應估計的最佳標準,原因也在此。由於前門估計值具有相同的功能,還能觀察人在自然狀態下的行為,而不是在實驗室中觀察,所以它成為隨機對照試驗的強勁對手。
Do計算法
無論前門或後門調整公式,終極目標都是藉由P(Y|X,A,B, Z……)等不包含do運算子的資料,計算介入行為P(Y|do(X))的影響。如果我們能完全消去do,就能使用觀察資料估計因果效應。
規則一:若W為與Y無關的變項,則P(Y|do(X), Z, W) = P(Y|do(X), Z)。舉例W為起火,Z為冒煙,Y為警報。規則一允許添加或刪去觀察結果。
規則二:如果變項Z可阻斷從X到Y的所有後門路徑,則以Z執行條件化後,do(X)等於see(X)。則P(Y|do(X), Z)=P(Y|X, Z)。規則二允許以觀察結果取代介入。
規則三:只要從X到Y沒有因果路徑,我們就可以刪去P(Y|do (X))中的do(X)。則:P(Y|do (X))= P (Y)。規則三允許刪去或添加介入。
範例:

由於Z和X沒有受到干擾,所以Z對X的因果效應(也就是a)可由X對Z的回歸線的斜率估計得出。同樣地,變項Z和Y也未受干擾,因為路徑Z→X←U→Y被位於X的衝突所阻斷。所以Z對Y的回歸線的斜率等於路徑ZXY上的因果效應,也就是路徑係數的乘積ab。如此不需要搜集干擾因子U的資料,就可得出X對Y的因果效應b。如果因果圖不同,例如U和Z之間有箭頭、或Z是X和Y的干擾因子,就無法估計X對Y的影響。
第八章:反事實
我們可以計算出任何反事實查詢的實際值或機率。(本章整理內容部分出自AI)
休謨原先認為因果關係完全是我們自身記憶和經驗的產物,把因果關係視為一種相關。後期則增加「如果沒有第一個客體,第二個客體也不會存在」的反事實敘述。
如果要以「A造成B」解釋別人的意思,我們只需要假設別人能在腦中構築另一個世界,再判斷那個世界「比較接近」真實世界。最重要的是必須做得一致,才能形成共識。原因在於人類精神架構驚人的一致性,它出自我們生活在同一個世界,擁有相同的因果結構心智模型。共同的心智模型使我們結合成共同體,因此我們不是以抽象的「相似性」概念來判定接近程度,而是以我們必須距離多遠、如何改變共同模型,才能滿足與事實矛盾的已知假設條件。
「可能世界」的數量遠超過大腦容量,人類如何在心中呈現這些世界,同時判定何者最接近真實世界?電腦科學家把它稱為表徵問題(representation problem)。我們一定擁有某些效率極高的機制,來處理這麼多個世界。人工智慧研究者必須先把這些反事實概念機械化,才有機會創造「強AI」,也就是接近人類的智慧。因果圖的規則十分簡單,只有依箭頭前進和去除箭頭,一定相當接近大腦呈現反事實的方式。
結構因果模型 (SCM)
要在模型中處理「如果當初...」這種不存在於現實的假設,模型必須具備結構方(Structural Equations)。
非隨機性:SCM不僅描述變量間的相關性,還定義了「機制」。例如:Y = f(X, U)。
外生變量(U):這是納入反事實的關鍵。U代表所有未觀察到的背景因素(如基因、運氣、當時的天氣)。在反事實推理中,我們假設即使 X 改變了,這些背景因素 U 在那個特定瞬間是維持不變的。
反事實推理
當我們想問:「如果小明沒吃藥(現實中他吃了並康復了),他還會康復嗎?」模型會執行以下三個數學步驟:
特徵化 / 溯因 (Abduction):利用現實中觀察到的數據(小明吃了藥且康復了),更新模型中對背景因素U的認知。這是在計算:在什麼樣的背景環境下,才會發生「吃藥且康復」的結果。
行動 / 干預 (Action):使用do運算子修改模型。將藥物變量 X 強制設為「未吃」,並斷開 X 原有的所有因果箭頭。此時模型變成了「反事實世界」。
預測 (Prediction):利用第一步更新後的 U 和第二步修改後的模型,計算結果 Y(是否康復)。
關鍵差異:從「群體」到「個體」
干預 (Intervention) 通常關注的是平均效應:如果「大家」都吃藥,死亡率會降多少?
反事實 (Counterfactual) 關注的是個體責任:如果「這名患者」當時沒吃藥,他現在會死嗎?
透過將現實觀察到的數據作為「證據」來約束背景變量 U,便能夠在虛擬的「平行時空」中進行邏輯運算。
必要性機率 (Probability of Necessity, PN)
核心問題:如果當初沒有發生X,結果Y是否就不會發生?(也就是:X是不是Y發生的「必要條件」?)
法律含義:這對應法律上的「若非(But-for)檢驗法」。如果沒有被告的行為,受害者還會受傷嗎?
數學直覺:我們觀察到現實中X發生了,且Y也發生了。PN是在問:在這種情況下,如果我們逆轉時空讓X不發生,Y消失的機率有多大?
充分性機率 (Probability of Sufficiency, PS)
核心問題:如果我們強制讓X發生,是否足以導致Y發生?(也就是:X是否「足以」誘發Y?)
政策含義:這對應「潛力評估」。如果我們推行某項新政策,它足以產生我們想要的結果嗎?
數學直覺:我們觀察到現實中X沒發生,Y也沒發生。PS是在問:如果我們介入並強迫X發生,那麼Y跟著發生的機率有多大?
第九章:中介
中介是把處理效應傳遞給結果的變項,中介分析的目的是釐清直接效應和間接效應。
「B藥物對血壓的影響,是它影響心臟病的中介。」這句話代表簡單的因果模型:B藥物→血壓→心臟病。

圖9.2中,社會地位是中介變項。如果想知道「雙親智力」對「子女智力」的整體影響,就不應該以位於兩者之間路徑上的任何變項執行調整(設定為常數)。如果我們以(a)源自「雙親智力」或「子女智力」的變項或(b)源自「雙親智力」或「子女智力」的未探究原因(例如圖9.2中的X)的變項執行條件化,偏差就會出現。以「社會地位」執行對照將會開啟後門路徑「雙親智力→社會地位←X→子女智力」。以此方式估計的直接和間接效應,都會出現偏差。
如果M和Y之間存在一個未被觀察到的共同原因(即混雜因子W),當你控制了 M(在因果圖中的「路徑阻斷」),你就會意外地開啟了一條從X到Y的虛假路徑。這會導致你觀察到的「直接效應」其實混合了W帶來的偏差,導致結論錯誤。
範例:柏克萊錄取率悖論
各學系的女性錄取率越來越高,但申請柏克萊研究所的男性有44%錄取,女性只有35%,為什麼?原因在女性申請比較難進的科系。
偏見bias是統計概念,是因果階梯第一層,資料中特定類型間的關聯型態,只要以不同方式劃分資料偏見就可能會消失。歧視discrimnation是保持穩定的因果概念,是性別對錄取結果的直接效應。
如果想估計某個變項對另一個變項的整體效應,以中介變項執行條件化是不正確的。但依據法院指出,在歧視案例中,重要的不是整體效應,而是直接效應。因此在〈圖9.4〉呈現的假設中,依照「學系」區分資料是對的,他們的結果也正確估計出「性別」對「結果」的直接效益。但如果有同時影響「學系」和「結果」的干擾因子,又會衍生新的問題。

不保持中介變項恆定,而以中介變項執行條件化,作者稱為「中介謬誤」(Mediation Fallacy)。如果中介變項和結果沒有受到干擾,這個錯誤無關緊要。然而,如果它們之間有干擾,就可能完全翻轉分析。
不同於對照直接效應(強制規定中介變項的值,每個人的中介變項都相同),自然直接效應把中介變項控制在未執行處理時會發生的值,而改動X看結果如何,這是反事實的思考,無法以do計算法估算。
真正的「直接效應」定義應該是:「如果我們強行改變X的值,但將M固定在原本X未改變時的狀態,結果會如何?」這是傳統統計公式(單純扣除相關係數)無法表達的。
第十章:大數據、人工智慧與大問題
作者相信因果推理是讓機器以人類語言與我們溝通的關鍵。
機器沒有能力預想其他現實,與眼前的現實互相對照,所以無法通過小型圖靈測驗。機器無法回答對人類而言最基本的問題:「為什麼?」這種反常現象不只出現在人工智慧(AI)領域。最應該關注「為什麼?」問題的人,也就是科學家,他們在統計文化中孜孜不倦地研究,但是統計文化否定他們有權利提出這類問題。他們當然還是會以不正式的方式提間,但如果要用來進行數學分析,就必須先改頭換面,變成聯想問題。
因果問題不可能單以資料解答。我們必須提出模型,說明資料產生過程,或至少說明某些部分的過程。要找尋有趣的關聯型態、提出更精確的詮釋性問題,資料探勘是重要的第一步。但要更進一步,我們就必須提出因果模型,指出我們認為這個基因可能影響哪些變項、可能有哪些干擾因子,以及還有哪些因果路徑可能造成這個結果等。資料詮釋就是假設真實世界的運作方式。
貝氏網路具有機率性,能處理充滿矛盾和不確定資料的世界。它和規則式系統的不同之處在於它屬於模組式,可輕易建構在分散式運算平台上,速度很快。最重要的是,貝氏網路以合乎數學的方式處理機率問題。如此可確保萬一發生問題,錯誤一定出在程式,而不是思考方式。即使有這些優點,貝氏網路依然無法理解原因和結果。在貝氏網路中,資訊是朝因果和診斷兩個方向流動,貝氏網路無法辨別「因果方向」。
近年來,人工智慧領域最重要的進展出現在深度學習(deep learning)領域,採用卷積式類神經網路。這類網路不遵循機率法則,不以嚴謹或透明方式處理不確定性,也不包含運作環境的明確資訊,而是放任網路架構自由演變。
有些人會說透明度不是必要的。我們其實也不完全了解人類大腦如何運作,但大腦還是運作得很好。我們容許自己自己對人類大腦運作不夠了解,但我們還是可以和其他人溝通、向其他人學習、教導其他人,以及用我們自己的因果語言鼓勵其他人,因為我們的大腦運作方式相同。如果機器人都像 AlphaGo一樣不透明,我們就沒辦法跟其他人對話,這樣就太可惜了。
深度學習的理論限制主要源自深度學習系統無法超越因果階梯的第一層。以技術用語說來,現在的機器學習方法為我們提供高效率的方法,從有限的樣本估計值得出機率分布,我們還必須從分布得出因果關係。
強AI應該是能反省本身行動,並從以往錯誤學習的機器。無論是由人類告知或是它自己得出結論,它都應該理解「我應該採取其他行動」這個陳述。這個陳述的反事實詮釋是「我做了X=x,結果是Y=y。但是如果我採取其他行動,例如X=x',則結果會更好,可能是Y=y'」。先前我們已經知道,只要有充足的資料和夠明確的因果模型,就能夠自動估計出這類機率。
推想自己的信念、意圖和需求的能力,是人工智慧研究者的主要挑戰,也是「代理」這個概念的定義。可讓思考機器擁有代理效益的程式至少應該包含三部分:世界的因果模型、本身程式的因果模型(多表面都可以),以及記錄意圖與外在事件間對應方式的記憶體。
短評:
看到第三遍終於看完了!前兩次都在中間卡住差點就要放棄,這本書不厚、也沒有困難的數學公式和理念,但作者提出的「因果革命」,和我們求學以來接受的統計學處理資料的方式大不相同。大家都知道「相關不等於因果」,可是沒有人可以清楚地用科學方法描述因果。偏偏辨別事物的因果關係在人腦之中就是如此簡單,就連三歲小孩都能判斷,但我們卻說不清楚當中的機制。作者跳過困擾無數哲學家和科學家的定義問題,以「因果階梯」的三層資料、關聯、和反事實來呈現我們怎麼處理因果問題,非常高明。如果單純用大數據、資料探勘和現有的深度學習,不但機制不透明,也爬不到因果階梯的第三層,距離強AI或通用AI還非常遙遠。不過諷刺的是,很多內容我都是靠Gemini解釋才看懂的XD











