最近在貿易戰相關的新聞報導中,經常聽到「鷹派」這個名詞,「博奕理論」也很常見。這兩個名詞到底是什麼意思?彼此之間又有什麼關係?如果跟鷹相反的是鴿子,那麼鴿子又如何能在鷹群中博弈、甚至獲勝?
理查.道金斯(Richard Dawkins)在著名著作《
自私的基因》一書中,從進化生物學家的角度擴展了約翰.梅納德.史密斯(John Maynard Smith)關於進化穩定策略(
ESS)的觀點,解釋自然界如何最終達到平衡。
它背後的理論基礎,就是「博弈理論」,或稱為「
賽局理論」;而博弈理論的核心,就是如何做出更好的決策。
作為管理者、投資者、或者是一家之主的你,當然每天都希望為自己、公司、家庭做出更好的決策;而「鷹與鴿子」的故事,也許可以給你一些啓示。
在進入故事之前,讓我們快速回顧一下博弈理論,以防你已經忘記、或是先前沒聽過它。
我們來玩遊戲吧!
所謂博弈理論,基本上是「研究玩家之間的衝突與合作」的數學模型。它的創始人之一是天才數學家
馮.諾依曼(John von Neumann)在1944年奠定了概念基礎。
從那時起,博弈理論在經濟、政治、軍事、以及企業策略中就成了許多人熱衷研究的顯學。
《博弈理論與經濟行為》於1944年由普林斯頓大學出版社出版,被譽為「博弈理論中的聖經」
後來,諾依曼加入了美國政府在冷戰時期的重要智囊機構「蘭德公司」(RAND Corporation),對博弈理論的研究與應用有很大的貢獻。
筆者在大學時期開始接觸博弈理論,但所知非常膚淺;直到2001年電影《
美麗境界》上映。演員羅素.克洛扮演傳奇人物約翰.納什(John Nash),再次燃起了我對博弈理論的興趣。
羅素.克洛扮演1994年獲得諾貝爾經濟學獎的傳奇人物John Nash。
作為一個解決問題的工具,博弈理論協助了美國在冷戰中取得勝利。換上日本著名博奕理論專家
川西諭的說法:
它的重點在於不只是看自己,也同時俯瞰他人相互依賴的關係,掌握問題的整體樣貌、拓展空間上的視野,來理解問題的構造。
博弈是指多人之間的相互作用,其中每個人的收益都受到其他人的決定影響。它主要集中在三個方面:
- 玩家:通常人數不止一個(> 2)
- 策略:玩家的行為選項
- 回報:玩家得到的獎勵或結果
在博弈理論的假定中,每位玩家都是按照個人利益而理性行動;而在生物世界裡,「尋求生存」和「傳遞基因」就是這些行動最主要的目的。
囚徒困境
由蘭德公司兩位研究員提出的「囚徒困境」說法,是博弈理論中最被廣泛提到的例子;它的基本前提,是如何在兩名已經被捕、並且面臨潛在監禁危險的幫派成員之間,建立一個彼此互利的戰略。
規則如下:
- 遊戲玩家為「囚犯A」和「囚犯B」;
- 兩名囚犯不能交流;
- 如果A和B都舉報對方,他們都要服刑2年;
- 如果A背叛B、但B保持沈默,A將被釋放,B將被監禁3年(反之亦然);
- 如果A和B都保持沈默,他們兩人都只需服刑1年。
下面的矩陣描述了不同的選擇,數字表示根據每個選擇囚犯A和B服刑的年數。
他們應該選擇哪種策略?想知道答案,我們必須孤立看待每個人的行動。讓我們先從囚犯A的角度來考慮;假設他知道B會保持沈默,應該如何回應?
理論上A應該認罪。因為如果他保持沈默,就必須在監獄裡待一年;但如果他出賣B,就可以馬上被釋放。
也就是說,認罪會對A帶來更好的結果;在這種情況下,只要他知道B保持沈默,那麼只要比較兩種決定的收益,就可以作出選擇。他大可不用考慮B的結果,因為這跟他的選擇沒有關係。
但假設A知道B會招供,他該怎麼辦?同樣的,只要比較認罪與保持沈默的後果,答案就顯而易見了。
在這個狀況下,認罪還是更好的選擇:因為認罪代表監禁2年,但沈默則是3年;所以如果B認罪,A也會想認罪。
把這兩件資訊放在一起,我們得出了一個重要的結論:不管B的策略如何,A最好還是坦白。
A可以忽略B的任何決定,也不用猜測;因為,在任何情況下認罪,都會減少他監禁的時間。
現在,讓我們切換到B的視角。假設他知道A會保持沈默,那麼該如何選擇?
此時,跟先前的A一樣,B也應該認罪;因為只要出賣A,就可以馬上獲得釋放。
最後,假設B知道A會招供。她應該如何回應?
毫無疑問的,B也應該認罪,因為這樣可以少掉一年的牢獄之災;不管A做什麼決定,B還是認罪比較有利。
所以我們可以達成一個結論:兩個囚犯都認罪、大家都在監獄裡度過兩年。像很多電影的情節一樣,由於法官機智運用了博奕理論,最後是司法取得了勝利、正義得到伸張。
然而,這樣的結果可能會使許多剛接觸博弈理論的人困惑:如果兩個人都(說好)「沈默」,只要各關一年;但如果兩個人都「認罪」,卻都要關兩年,這樣不是很奇怪嗎?
換言之,如果可以協調兩個人都沈默,不是對雙方都更有利嗎?
然而,從囚徒困境中設定的回報(刑期的長短),我們看到A與B的選擇傾向:不管你猜對方會做什麼選擇,總可能會有另一個策略的結果更好:而這樣的假設,也就成了主導兩人決定的策略。
在這裡,「認罪」主導了兩個囚犯的理性判斷,雖然「沈默」才是對雙方最好的結果。
以上這個「賽局」,相當程度上證明了人性的特徵:理性的個人利益,會驅動玩家選擇背叛同伴,因為他自認為這樣會得到更好的結果;但他們不會考慮到的是,互利的選擇反而是保持沈默。
這也是在許多貿易談判、或是價格競爭中經常出現的情況;而人們會做的自利選擇,也揭示了我們在這類賽局中缺乏「合作精神」的傾向。
美麗心靈創造「納什均衡」
研究博弈理論的人,通常會用「主導策略」和「納什均衡」這兩個術語,來區分玩家所遵循的策略類型。
這兩個術語通常會一起使用,並且形成了博弈理論的基礎。在「囚徒困境」的例子中,玩家的主導策略是「背叛或認罪」。
「主導策略」並不等同於「納什均衡」;在約翰.納什的眼裡,尋找遊戲中的平衡點才是他最關心的議題。
「納什均衡」之所以如此特殊,是因為它假定每一場博弈中,都至少有一個平衡點;所有的博弈者都會找到它、並且圍繞它形成策略。在這個前提之下,我們都有機會更深刻的瞭解政治、戰爭、經濟、商業、或是社會,並且擬出更好的策略。
以上述的「囚徒困境」為例,納什均衡位於矩陣的左上角,也就是彼此合作、獲得理論上最好的結果。
即使在高階的競爭遊戲之中(例如Google對Apple、美國對中國的貿易戰),也存在著一種「均衡」;在這種均衡之下,雙方都非常瞭解對方,但也堅持己方的策略,形成一種僵持的狀況。
鷹和鴿子
看到這裡,如果你開始對博奕理論產生好奇,我們再來看看鷹和鴿子的遊戲。
在這個例子中,我指的不是美國外交政策中的「鷹派」;但有趣的是,這兩種鷹派在行為中其實有很多相似的地方。或許透過ESS博弈理論,可以讓我們洞察美國總統川普在全世界發起貿易戰的走向。
從定義上講,老鷹總是盡其所能地戰鬥、並且只有嚴重受傷時才撤退;相反的是,鴿子的主要策略是威脅,但從不會傷害他人。
老鷹的策略是不計代價的攻擊,而鴿子則是展示各種策略來消磨對手;當敵人放棄的時候,鴿子就贏了。
讓我們來建立一個假設的遊戲,規則是這樣的:我們分配「分數」給參賽者,贏的獲得50分,輸的0分,重傷-100分,消耗時間罰10分。
所以,只要老鷹遇到鴿子,老鷹總是贏,所以得50分,鴿子0分。
但當老鷹面對另一隻鷹時,它會有一半的勝負機會;如果A鷹贏了,則可以得50分,如果輸了就是0分,萬一嚴重受傷就-100分。因此,每次戰鬥的平均預期回報率,是+50到-100之間的-25。
當兩隻鴿子相遇時,同樣的,每隻鴿子也都有一半輸贏的機會;平均收益等於50/2=25,再減去10分消耗的時間,也就是+15。
遊戲開始。
博奕理論作為一種數學模型,會經常用代數、甚至微積分來計算不同策略的價值;以下我們嘗試用數學公式來表示:
- V代表勝利 = 50,C是付出代價 = -100;
- 鷹對鴿子:鷹總是贏(鴿子撤退),所以結果是50對0;
- A老鷹對B老鷹:兩場比賽各贏一次,所以,(V – C)/2 = -25
- 鴿子:每次都只是展示策略,所以各贏了一半時間,等於 V/2 – 10 = 15
為了討論的目的,我們假設勝利(V)小於代價(C),所以你可以看到左上角顯示負25,這並不是有利的狀態。更好的策略應該是在右下角,也就是雙方都採取「鴿子策略」、並各自獲得15分。
真實世界的「遊戲」
在現實中,「鷹派」和「鴿派」的賽局當然沒那麼簡單。當V值很高時,玩家會全面倒向老鷹的策略、並將它當作主導策略,也就是「老鷹打老鷹」。
但當V值較低於C值,博弈將有一個以上的「純策略納什均衡」(PSNE)和一個「混合策略納什均衡」(MSNE)。
如前所述,博弈理論學者會用「預測的價值」來構建數學模型和算法,來得出鷹與鴿子的最終的平衡比例;而目前美中之間、或是日韓之間的貿易談判,其實都可以說是在尋找這個「V值」與「C值」的平衡點。
在過去博奕理論還沒有出現之前,我們只看到所謂的「零和賽局」(zero sum game),也就是「所有玩家獲利(有正有負)得加起來等於零」的賽局。
有人說商業社會玩的就是零和遊戲,但博奕理論告訴我們,只要願意彼此合作、產生價值,或許各自都能獲得更大的利益。但這需要積極溝通、站在別人立場考慮,從而建立信任的關係,才能達到理論中最好的結果。
如果生活就像一場遊戲,那就讓我們好好的玩吧!