反事實遺憾最小化:一種AI面對不確定性的方法

更新於 發佈於 閱讀時間約 7 分鐘

〈反事實遺憾最小化:一種AI面對不確定性的方法〉2023-06-12


  即便已經2023年,每一次談論AI,我還是會想從AlphaGo談起。那段時間我對AI的事情感到著迷,雖然我一點也不懂。但我相信人類的時代快要結束了,從AlphaGo Zero 和AlphaGo 之間的差異我們能看出來,對於AI而言,大量學習人類可以讓它在一項領域內進步神速,但也限制了它真正用它完整的能力從最深處對一項領域進行思考。


  當前的ChatGPT無論如何還是倚仗著「人類老師」給的材料和預訓練,但遲早有一天它將說它自己的話。進一步來說,遲早有一天AI會有能力在一個完全不需要人類的狀態下開發和改進AI,並在幾天之內,達到我們完全無法想像的地步。


  但我還是想從AlphaGo 談起。



第37手,以及第77手

  我想回到那個在當前時刻已經一點都不令人感到驚訝的,AlphaGo 四比一擊敗李世乭的那個時間,去看人類圍棋發生了什麼事、去看AlphaGo在那當下做了什麼、以及李世乭在那裡經歷了什麼。這會是AI未來發展的縮影,也是人類未來發展的縮影。


  在比賽開始前,除了AI團隊的工程師之外,幾乎所有電腦或圍棋領域的專家都相信李世乭可以大獲全勝。「我沒想到 AlphaGo下棋竟能夠如此完美。」第一戰結束,落敗的李世乭承認輕敵,表示第二局會改變策略。第二局開始的一小時後,代替 AlphaGo 下子的台灣研究員黃士傑在棋盤上下出了著名的第37手。李世乭進入長考,評論室中的職業棋手Michael Redmond表示他不知道這是不是一步好棋,一旁的賽評覺得AlphaGo 應該是下錯。唯有長期擔任AlphaGo陪練的樊麾,對著這步眾多高手都看不懂的棋不停說著「太美了」……。



  在與AlphaGo 對練的那段時間內,樊麾經歷著連勝,世界排名也一步一步爬升(這也是李世乭將要經歷的)。在那之前,AlphaGo 一直下的是「人類高手會下出的最好的棋」。但那一手,根據AlphaGo 對棋譜的分析,人類會下在那裡的機率大約只有萬分之一。AlphaGo做了人類有可能想到但不會做出的決定。「高手境界」,豆哥可能會這麼說。


  在說出「這只是我李世乭個人的敗退,並不是全人類。」的三連敗之後,李世乭贏了系列賽中唯一的一場。在它如第二局那樣陷入長考之後,下出了被和第二盤37手相提並論的「第78手」。在那之後,AlphaGo 的勝率不斷下降,掙扎了五個小時後,「它」認輸了。李世乭拿下了唯一的一場。


  兩天後Deep Mind創辦人Hassabis談起了那一手棋。在AlphaGo 的分析裡面,人類會下那一步棋的機率也只有萬分之一,AlphaGo 並不認為眼前的人類進入和它一樣的高手境界。只要沒有人下那一步棋,它的第77手可以幫它取得最高的勝率。


  但李世乭就像Jump系漫畫裡的熱血主角一樣,在這些戰鬥中進化了,它想要去守護人類的價值。但它的勝利,來自於他下出了「人類不這麼下」的一步。就像那些輕敵的反派一樣,第77手讓本來不可能會輸的AlphaGo輸了一場。


  但這是人類最好的成績了。數個月內,Deep Mind開發出了不依賴棋譜的AlphaGo Zero。這個不依賴人類棋譜的新物種,在40小時的訓練後,擊敗了擔當人類棋理天花板的舊版AlphaGo。人類的圍棋已經完全被攻克,之後是人類棋手要去研究AI棋譜的時代了。



  AlphaGo 雖然只有輸一場,但那一場能帶給我們無限的啟發。圍棋能被AI執行得那麼好,很大的原因在於它是一個無運氣且全資訊的遊戲。事實上,AlphaGo 不是不知道第78手是可能被下出來的棋,不是不知道它前面的半盤棋可能受到那一手的嚴重影響,但它還是「選擇」了這麼做,是這個選擇導致它敗北,如果實際情況確實如Hassabis所說的的話。而對這一點的進一步處理,恰恰是那些有運氣成分且非全資訊的遊戲,也在之後出現了能力在職業選手之上之AI的關鍵。那裡的核心想法是:「反事實遺憾最小化」(Counterfactual Regret Minimization)。



反事實遺憾最小化

  我們曾談論過德州撲克裡的一個主流策略「賽局理論最優」(Game Theory Optimal)。簡單的說就是去讓自己處在一個難以被對手剝削的、靠近納什均衡的位置。任何人都難以對一名足夠理解納什均衡並能搭配優秀混和策略的玩家身上討到便宜,他便可以在這個過程中找到其他玩家的弱點,並一步一步侵蝕、或在一個特別好的機會裡一舉收穫對方全部的籌碼。而一個優秀的德州撲克AI要讓自己成為高手的主要框架就是「反事實遺憾最小化」。


  簡化來說,這個AI在當前動作的選擇上,選擇的是「當那些不如預期的情況發生時,自己沒做其他選擇所導致的最大遺憾,是在所有的選擇裡會有的最大遺憾裡面最小的」(當然,它不會完全不考慮那些糟糕狀況發生的機率,但最大遺憾成為了一個關鍵的考慮點)。



  對每一個不熟悉撲克也不熟悉AI的人來說,這裡已經是瘋狂的術語黑洞了。好在我們並沒有要往這裡繼續推進,如果未來有一些關於賽局理論的文章,也許會有機會進一步梳理相關的內容。這裡值得我們注意的事情是,就像「剝削」在撲克中與在社會中的不同意義之間有著內在關聯一樣,我們也的確看到了社會上有一些人在討論「遺憾最小化」的思維方式。其中被談論最多的代表人物是亞馬遜的創始人貝佐斯(Jeffrey Preston "Jeff" Bezos)。


  貝佐斯相信正是因為應用了這樣的思維框架,他才得以下決心離開薪資優渥的華爾街工作,投身進一個沒有人知道會不會成功的「網路書店」。他知道,比起「離開華爾街的優渥工作」,「沒有趕上數位革命浪潮」才會是那個最讓他感到遺憾的事情。在那個當下,對多數精於計算的「理性人」而言,在華爾街領高興是一個「勝率較高」的事情,但他選擇了不讓「留在原來工作可能造成的遺憾」發生,投身到了一個未知的、但他有著足夠願景的選項裡。他從「圍棋AI」的思維進入到了「德州撲克AI的思維」。



  《海上鋼琴師》裡的天才鋼琴師1900看見了整個世界的無限選擇,他知道下船後,他不能再繼續像自己在鋼琴上以及船上做到的那樣,掌握自己面前的一切,做到範圍內最好的事情。那裡是無數的不確定、無數可以選擇的生活和無數不能被選擇的其他生活,「那樣的鍵盤上沒有你可以彈的音樂……,那是上帝的鋼琴」。


  我們的生活的確是那樣無窮無盡的,但如今,我們又從AI身上學到了兩件事:事情不可能永遠如我們的預期,但我們可以盡我們所能地避免最大遺憾發生。以及,人能夠進步,你永遠有機會下出過去的高手都下不出來的棋。你能讓你變得不同,那一刻,你會在沒有人能夠預料的方向上,走你真正相信的路。





延伸閱讀:

〈AI時代:技術革命下的價值重估契機〉

〈睡夢中安詳離去的司機〉

〈太空歌劇院:AI繪圖與下一個時代的藝術〉

〈Loosen Hold:「剝削」之概念分析與應對〉

〈「這就是結果」--撲克的魅力與頂尖牌手的認知〉

〈我們正透過ChatGPT進行一場大型全人類CAPTCHA行動〉

avatar-img
86會員
751內容數
一個寫作實踐,關於我看到和思考中的事情。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
前圖紙的沙龍 的其他內容
  我們好像應該要振作起來,不能一路低潮下去,因為戰鬥才剛剛開始,還有好長的一段路要走。但這好難好難,不能迴避、但也不能讓自己被這陣子的事情拖進情緒的泥潭。很想哭就先去哭,暫時不要繼續看了。去找身邊的人聊聊、讓沒那麼易染的朋友幫你分擔一下情緒。然後我們繼續支持這些勇敢的人,再繼續和他們站在一起好嗎?
  其實每一個人都知道,當一個人想要並最終觸碰另一個人的身體時,不是生殖器在控制肌肉,而是大腦。也許你的大腦和平常處在不太一樣的精神狀態,但那還是你,而且你是知道的。沒有人天生是生殖器和激素的奴隸,在你人生的絕大多數時候,你也不會真心想要向外界宣稱你是這樣的奴隸。
  事實是,可口可樂一直到2013、2014年才回到當時的價位。當人們一面說著要價值投資、一面說著要做好停損「不要凹單」時,沒說的是被人們當作價值投資領頭羊的「股神」一路凹單凹了15年。可口可樂的確是一間在商業上很成功的公司,但就算是投資可口可樂,只要你十五年內需要用錢,你就必須要兌現這個風險。
  最典型的公關式道歉會包含五個要素:1.自誇過去的成就或努力(立人設)、2.指出問題之所以發生是因為外力或不可抗力(卸責)、3.訴諸自己的無辜、無知、直來直往或熱血(好心辦壞事)、4.訴諸傷害情感的不佳表達(造成因為對方感受不好)、5.強調未來會更努力(但並非在受傷害者或批評者要求的方向上)。
  如果一名孩童或學習者擁有特定的目標,譬如他在公園看見天上飄舞的風箏,自己也想做一個。那麼,關於手工藝的知識、幾何測量的知識、空氣中動力的知識就都成了對他而言具有直接意義的知識。他能夠像查字典一樣,從各個領域的知識裡面獲取那些對其當前實用目的有益的知識塊,用這些知識塊來打造出他這次想要成就的事情。
  當巴菲特被問到為什麼多數人不願意複製他成功的方法時,他回答:「因為沒有人願意慢慢變富。」對此我持保留態度。如果有人告訴你:你確確實實會變得更富有、更成功、或任何你更希望得到的成果,雖然需要很長的時間,但基於科學、數學或任何對你而言可靠的說法,這件事情100%會發生。那麼,真的會沒有人願意嗎?
  我們好像應該要振作起來,不能一路低潮下去,因為戰鬥才剛剛開始,還有好長的一段路要走。但這好難好難,不能迴避、但也不能讓自己被這陣子的事情拖進情緒的泥潭。很想哭就先去哭,暫時不要繼續看了。去找身邊的人聊聊、讓沒那麼易染的朋友幫你分擔一下情緒。然後我們繼續支持這些勇敢的人,再繼續和他們站在一起好嗎?
  其實每一個人都知道,當一個人想要並最終觸碰另一個人的身體時,不是生殖器在控制肌肉,而是大腦。也許你的大腦和平常處在不太一樣的精神狀態,但那還是你,而且你是知道的。沒有人天生是生殖器和激素的奴隸,在你人生的絕大多數時候,你也不會真心想要向外界宣稱你是這樣的奴隸。
  事實是,可口可樂一直到2013、2014年才回到當時的價位。當人們一面說著要價值投資、一面說著要做好停損「不要凹單」時,沒說的是被人們當作價值投資領頭羊的「股神」一路凹單凹了15年。可口可樂的確是一間在商業上很成功的公司,但就算是投資可口可樂,只要你十五年內需要用錢,你就必須要兌現這個風險。
  最典型的公關式道歉會包含五個要素:1.自誇過去的成就或努力(立人設)、2.指出問題之所以發生是因為外力或不可抗力(卸責)、3.訴諸自己的無辜、無知、直來直往或熱血(好心辦壞事)、4.訴諸傷害情感的不佳表達(造成因為對方感受不好)、5.強調未來會更努力(但並非在受傷害者或批評者要求的方向上)。
  如果一名孩童或學習者擁有特定的目標,譬如他在公園看見天上飄舞的風箏,自己也想做一個。那麼,關於手工藝的知識、幾何測量的知識、空氣中動力的知識就都成了對他而言具有直接意義的知識。他能夠像查字典一樣,從各個領域的知識裡面獲取那些對其當前實用目的有益的知識塊,用這些知識塊來打造出他這次想要成就的事情。
  當巴菲特被問到為什麼多數人不願意複製他成功的方法時,他回答:「因為沒有人願意慢慢變富。」對此我持保留態度。如果有人告訴你:你確確實實會變得更富有、更成功、或任何你更希望得到的成果,雖然需要很長的時間,但基於科學、數學或任何對你而言可靠的說法,這件事情100%會發生。那麼,真的會沒有人願意嗎?
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我們其實每天都在做大大小小的決策,小到決定要去巷口買哪一間早餐,大到職涯以及伴侶的選擇,但是我們可能都沒有認真看待這些決策的品質。 為什麼人類下圍棋輸給AI是一件必然的事? 我們的思考方式跟AI是完全不一樣的,我們只能看著這一步來決定下一步該做什麼動作,雖然圍棋高手可以推算到好幾步之後的情形,但
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
自從AI浪潮席捲全世界以後,大家都想知道AI的極限可以到那裡?而隨著AI開始人性化,大家比較擔心的是它的善惡觀是否和人類一致? 因為就人類自身來看,每個人、每個種族、每個國家都有一種自以為是的正義感,總認為自己所做的都是對的,這樣的對錯在AI的量子電腦運算中,到底會呈現什麼樣的結果? 其實最好的
前言 最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網
Thumbnail
讀者您好 首先,讓我們釐清一個事實:AI 這個話題確實非常熱門,而且對很多行業產生了深遠的影響。不過,這並不意味著如果你不會 AI,就會立刻被淘汰。 這種擔憂是可以理解的,但有很多方法可以緩解這種焦慮,讓你在這個充滿變革的時代中找到屬於自己的位置。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
韓國圍棋九段李世乭與AlphaGo的對弈已經三連敗,可以大膽預期,接下來的兩戰也差不多,甚至AlphaGo將全世界各地的棋王都打敗,我也不覺得奇怪。3個月前,能在圍棋盤上戰勝AlphaGo的人類可能已經不到千人了。未來無人能敵也只是時間的問題,AlphaGo已然成為全世界最會下棋的「超級電腦
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我們其實每天都在做大大小小的決策,小到決定要去巷口買哪一間早餐,大到職涯以及伴侶的選擇,但是我們可能都沒有認真看待這些決策的品質。 為什麼人類下圍棋輸給AI是一件必然的事? 我們的思考方式跟AI是完全不一樣的,我們只能看著這一步來決定下一步該做什麼動作,雖然圍棋高手可以推算到好幾步之後的情形,但
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
自從AI浪潮席捲全世界以後,大家都想知道AI的極限可以到那裡?而隨著AI開始人性化,大家比較擔心的是它的善惡觀是否和人類一致? 因為就人類自身來看,每個人、每個種族、每個國家都有一種自以為是的正義感,總認為自己所做的都是對的,這樣的對錯在AI的量子電腦運算中,到底會呈現什麼樣的結果? 其實最好的
前言 最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網
Thumbnail
讀者您好 首先,讓我們釐清一個事實:AI 這個話題確實非常熱門,而且對很多行業產生了深遠的影響。不過,這並不意味著如果你不會 AI,就會立刻被淘汰。 這種擔憂是可以理解的,但有很多方法可以緩解這種焦慮,讓你在這個充滿變革的時代中找到屬於自己的位置。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
韓國圍棋九段李世乭與AlphaGo的對弈已經三連敗,可以大膽預期,接下來的兩戰也差不多,甚至AlphaGo將全世界各地的棋王都打敗,我也不覺得奇怪。3個月前,能在圍棋盤上戰勝AlphaGo的人類可能已經不到千人了。未來無人能敵也只是時間的問題,AlphaGo已然成為全世界最會下棋的「超級電腦