反事實遺憾最小化:一種AI面對不確定性的方法

更新於 發佈於 閱讀時間約 7 分鐘

〈反事實遺憾最小化:一種AI面對不確定性的方法〉2023-06-12


  即便已經2023年,每一次談論AI,我還是會想從AlphaGo談起。那段時間我對AI的事情感到著迷,雖然我一點也不懂。但我相信人類的時代快要結束了,從AlphaGo Zero 和AlphaGo 之間的差異我們能看出來,對於AI而言,大量學習人類可以讓它在一項領域內進步神速,但也限制了它真正用它完整的能力從最深處對一項領域進行思考。


  當前的ChatGPT無論如何還是倚仗著「人類老師」給的材料和預訓練,但遲早有一天它將說它自己的話。進一步來說,遲早有一天AI會有能力在一個完全不需要人類的狀態下開發和改進AI,並在幾天之內,達到我們完全無法想像的地步。


  但我還是想從AlphaGo 談起。



第37手,以及第77手

  我想回到那個在當前時刻已經一點都不令人感到驚訝的,AlphaGo 四比一擊敗李世乭的那個時間,去看人類圍棋發生了什麼事、去看AlphaGo在那當下做了什麼、以及李世乭在那裡經歷了什麼。這會是AI未來發展的縮影,也是人類未來發展的縮影。


  在比賽開始前,除了AI團隊的工程師之外,幾乎所有電腦或圍棋領域的專家都相信李世乭可以大獲全勝。「我沒想到 AlphaGo下棋竟能夠如此完美。」第一戰結束,落敗的李世乭承認輕敵,表示第二局會改變策略。第二局開始的一小時後,代替 AlphaGo 下子的台灣研究員黃士傑在棋盤上下出了著名的第37手。李世乭進入長考,評論室中的職業棋手Michael Redmond表示他不知道這是不是一步好棋,一旁的賽評覺得AlphaGo 應該是下錯。唯有長期擔任AlphaGo陪練的樊麾,對著這步眾多高手都看不懂的棋不停說著「太美了」……。



  在與AlphaGo 對練的那段時間內,樊麾經歷著連勝,世界排名也一步一步爬升(這也是李世乭將要經歷的)。在那之前,AlphaGo 一直下的是「人類高手會下出的最好的棋」。但那一手,根據AlphaGo 對棋譜的分析,人類會下在那裡的機率大約只有萬分之一。AlphaGo做了人類有可能想到但不會做出的決定。「高手境界」,豆哥可能會這麼說。


  在說出「這只是我李世乭個人的敗退,並不是全人類。」的三連敗之後,李世乭贏了系列賽中唯一的一場。在它如第二局那樣陷入長考之後,下出了被和第二盤37手相提並論的「第78手」。在那之後,AlphaGo 的勝率不斷下降,掙扎了五個小時後,「它」認輸了。李世乭拿下了唯一的一場。


  兩天後Deep Mind創辦人Hassabis談起了那一手棋。在AlphaGo 的分析裡面,人類會下那一步棋的機率也只有萬分之一,AlphaGo 並不認為眼前的人類進入和它一樣的高手境界。只要沒有人下那一步棋,它的第77手可以幫它取得最高的勝率。


  但李世乭就像Jump系漫畫裡的熱血主角一樣,在這些戰鬥中進化了,它想要去守護人類的價值。但它的勝利,來自於他下出了「人類不這麼下」的一步。就像那些輕敵的反派一樣,第77手讓本來不可能會輸的AlphaGo輸了一場。


  但這是人類最好的成績了。數個月內,Deep Mind開發出了不依賴棋譜的AlphaGo Zero。這個不依賴人類棋譜的新物種,在40小時的訓練後,擊敗了擔當人類棋理天花板的舊版AlphaGo。人類的圍棋已經完全被攻克,之後是人類棋手要去研究AI棋譜的時代了。



  AlphaGo 雖然只有輸一場,但那一場能帶給我們無限的啟發。圍棋能被AI執行得那麼好,很大的原因在於它是一個無運氣且全資訊的遊戲。事實上,AlphaGo 不是不知道第78手是可能被下出來的棋,不是不知道它前面的半盤棋可能受到那一手的嚴重影響,但它還是「選擇」了這麼做,是這個選擇導致它敗北,如果實際情況確實如Hassabis所說的的話。而對這一點的進一步處理,恰恰是那些有運氣成分且非全資訊的遊戲,也在之後出現了能力在職業選手之上之AI的關鍵。那裡的核心想法是:「反事實遺憾最小化」(Counterfactual Regret Minimization)。



反事實遺憾最小化

  我們曾談論過德州撲克裡的一個主流策略「賽局理論最優」(Game Theory Optimal)。簡單的說就是去讓自己處在一個難以被對手剝削的、靠近納什均衡的位置。任何人都難以對一名足夠理解納什均衡並能搭配優秀混和策略的玩家身上討到便宜,他便可以在這個過程中找到其他玩家的弱點,並一步一步侵蝕、或在一個特別好的機會裡一舉收穫對方全部的籌碼。而一個優秀的德州撲克AI要讓自己成為高手的主要框架就是「反事實遺憾最小化」。


  簡化來說,這個AI在當前動作的選擇上,選擇的是「當那些不如預期的情況發生時,自己沒做其他選擇所導致的最大遺憾,是在所有的選擇裡會有的最大遺憾裡面最小的」(當然,它不會完全不考慮那些糟糕狀況發生的機率,但最大遺憾成為了一個關鍵的考慮點)。



  對每一個不熟悉撲克也不熟悉AI的人來說,這裡已經是瘋狂的術語黑洞了。好在我們並沒有要往這裡繼續推進,如果未來有一些關於賽局理論的文章,也許會有機會進一步梳理相關的內容。這裡值得我們注意的事情是,就像「剝削」在撲克中與在社會中的不同意義之間有著內在關聯一樣,我們也的確看到了社會上有一些人在討論「遺憾最小化」的思維方式。其中被談論最多的代表人物是亞馬遜的創始人貝佐斯(Jeffrey Preston "Jeff" Bezos)。


  貝佐斯相信正是因為應用了這樣的思維框架,他才得以下決心離開薪資優渥的華爾街工作,投身進一個沒有人知道會不會成功的「網路書店」。他知道,比起「離開華爾街的優渥工作」,「沒有趕上數位革命浪潮」才會是那個最讓他感到遺憾的事情。在那個當下,對多數精於計算的「理性人」而言,在華爾街領高興是一個「勝率較高」的事情,但他選擇了不讓「留在原來工作可能造成的遺憾」發生,投身到了一個未知的、但他有著足夠願景的選項裡。他從「圍棋AI」的思維進入到了「德州撲克AI的思維」。



  《海上鋼琴師》裡的天才鋼琴師1900看見了整個世界的無限選擇,他知道下船後,他不能再繼續像自己在鋼琴上以及船上做到的那樣,掌握自己面前的一切,做到範圍內最好的事情。那裡是無數的不確定、無數可以選擇的生活和無數不能被選擇的其他生活,「那樣的鍵盤上沒有你可以彈的音樂……,那是上帝的鋼琴」。


  我們的生活的確是那樣無窮無盡的,但如今,我們又從AI身上學到了兩件事:事情不可能永遠如我們的預期,但我們可以盡我們所能地避免最大遺憾發生。以及,人能夠進步,你永遠有機會下出過去的高手都下不出來的棋。你能讓你變得不同,那一刻,你會在沒有人能夠預料的方向上,走你真正相信的路。





延伸閱讀:

〈AI時代:技術革命下的價值重估契機〉

〈睡夢中安詳離去的司機〉

〈太空歌劇院:AI繪圖與下一個時代的藝術〉

〈Loosen Hold:「剝削」之概念分析與應對〉

〈「這就是結果」--撲克的魅力與頂尖牌手的認知〉

〈我們正透過ChatGPT進行一場大型全人類CAPTCHA行動〉

留言
avatar-img
留言分享你的想法!
avatar-img
前圖紙的沙龍
105會員
901內容數
一個寫作實踐,關於我看到和思考中的事情。
前圖紙的沙龍的其他內容
2024/12/31
  作為一名每天晚上留給自己兩小時坐在電腦前打字的人,今天的行程自然也是這樣。如果要說今年有什麼成就的話:沒有任何一天真的沒挪出時間或寫不出東西。這值得給自己一點微鼓勵(左右手食指快速彼此觸碰六下)。本來還想寫些下個年度的安排,但今日事今日畢,明年的事情,明年再來說。
2024/12/31
  作為一名每天晚上留給自己兩小時坐在電腦前打字的人,今天的行程自然也是這樣。如果要說今年有什麼成就的話:沒有任何一天真的沒挪出時間或寫不出東西。這值得給自己一點微鼓勵(左右手食指快速彼此觸碰六下)。本來還想寫些下個年度的安排,但今日事今日畢,明年的事情,明年再來說。
2024/12/30
  我們能看見樓上的房東與樓下的房客,我們能往上走也能往下落。我們會經歷痛苦與不安、焦慮與急躁,但同時又有足夠的支持性社會網絡。我們不是那些「只要努力就會成功」的人,也不是那些「再怎麼努力都注定要被辜負」的人。我們所要前往的地方既要求著努力,也要求著機運。
2024/12/30
  我們能看見樓上的房東與樓下的房客,我們能往上走也能往下落。我們會經歷痛苦與不安、焦慮與急躁,但同時又有足夠的支持性社會網絡。我們不是那些「只要努力就會成功」的人,也不是那些「再怎麼努力都注定要被辜負」的人。我們所要前往的地方既要求著努力,也要求著機運。
2024/12/29
  一個真正遵循道德或任何一種規範的所謂「自律」的人,不應該僅僅是遵循一個現存的規範,依樣畫葫蘆地將自己行為成該種規範的形狀。而是,他會去給出一個,按照他自己的形象構造出來的規則。他不是放棄思考,被動地遵循。而是,透過規則,他去將自己展現為自身行為的主人,去透過規則落實自己的價值觀與意志。
2024/12/29
  一個真正遵循道德或任何一種規範的所謂「自律」的人,不應該僅僅是遵循一個現存的規範,依樣畫葫蘆地將自己行為成該種規範的形狀。而是,他會去給出一個,按照他自己的形象構造出來的規則。他不是放棄思考,被動地遵循。而是,透過規則,他去將自己展現為自身行為的主人,去透過規則落實自己的價值觀與意志。
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
AI高速發展,現今一天的變幻超過古代十年的發展,不少人對未來充滿焦慮、迷茫,但一直以來都有一項能力,不僅人人都能學、還無法被AI取代﹔而貫穿古今,只要精通這能力,人生普遍差不了…
Thumbnail
AI高速發展,現今一天的變幻超過古代十年的發展,不少人對未來充滿焦慮、迷茫,但一直以來都有一項能力,不僅人人都能學、還無法被AI取代﹔而貫穿古今,只要精通這能力,人生普遍差不了…
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
自從AI浪潮席捲全世界以後,大家都想知道AI的極限可以到那裡?而隨著AI開始人性化,大家比較擔心的是它的善惡觀是否和人類一致? 因為就人類自身來看,每個人、每個種族、每個國家都有一種自以為是的正義感,總認為自己所做的都是對的,這樣的對錯在AI的量子電腦運算中,到底會呈現什麼樣的結果? 其實最好的
Thumbnail
自從AI浪潮席捲全世界以後,大家都想知道AI的極限可以到那裡?而隨著AI開始人性化,大家比較擔心的是它的善惡觀是否和人類一致? 因為就人類自身來看,每個人、每個種族、每個國家都有一種自以為是的正義感,總認為自己所做的都是對的,這樣的對錯在AI的量子電腦運算中,到底會呈現什麼樣的結果? 其實最好的
Thumbnail
人工智能(AI)是當今最熱門的話題之一,它正在改變人類的生活方式和 工作方式。踏入2023年,隨著 OpenAl 推出 ChatGPT 震驚全球,以 AI技術的應用程序不斷湧現,顛覆了 我們過去對科技的認知。 今天Only Two 翁立兔分享了這篇,我真的覺得蠻好的 【一天一千字,進化每一次】不
Thumbnail
人工智能(AI)是當今最熱門的話題之一,它正在改變人類的生活方式和 工作方式。踏入2023年,隨著 OpenAl 推出 ChatGPT 震驚全球,以 AI技術的應用程序不斷湧現,顛覆了 我們過去對科技的認知。 今天Only Two 翁立兔分享了這篇,我真的覺得蠻好的 【一天一千字,進化每一次】不
Thumbnail
史丹佛大學的AI指數2024報告(2024 AI Index Report)歸納了10大重點: 人工智慧(AI 在某些任務上擊敗了人類,但並非在所有任務上都擊敗了人類。AI在許多方面已經超越了人類基準,包括圖像分類、視覺推理和英語理解方面的一些基準。。。。
Thumbnail
史丹佛大學的AI指數2024報告(2024 AI Index Report)歸納了10大重點: 人工智慧(AI 在某些任務上擊敗了人類,但並非在所有任務上都擊敗了人類。AI在許多方面已經超越了人類基準,包括圖像分類、視覺推理和英語理解方面的一些基準。。。。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
現在都在探討AI成形後的社會模式 每一個階段的習慣科技都只是為了我們人類的需求很誕生 不過在現階段的認知我認為人類始終能掌控科技 因為 AI人工智能最厲害的是"計算" 而我們人類最厲害的是"算計" "計算"靠的是公式."算計"靠的是想像 有算計的是世界才
Thumbnail
現在都在探討AI成形後的社會模式 每一個階段的習慣科技都只是為了我們人類的需求很誕生 不過在現階段的認知我認為人類始終能掌控科技 因為 AI人工智能最厲害的是"計算" 而我們人類最厲害的是"算計" "計算"靠的是公式."算計"靠的是想像 有算計的是世界才
Thumbnail
2023年回顧時寫過一篇關於AI欲望與佛法的想法,2024年初,人類世界又迎來了一波AI應用的暴發。 人類該懼怕AI嗎? 答案是,怕也沒用。 AI會搶走人類的工作嗎? 是的,而且會大量取代人工。
Thumbnail
2023年回顧時寫過一篇關於AI欲望與佛法的想法,2024年初,人類世界又迎來了一波AI應用的暴發。 人類該懼怕AI嗎? 答案是,怕也沒用。 AI會搶走人類的工作嗎? 是的,而且會大量取代人工。
Thumbnail
大家最近從AI AlphaGo打敗棋王, 開始陸續新聞一直報導, 到最近不管是AI繪圖,AI Chatgpt,AI coplit...
Thumbnail
大家最近從AI AlphaGo打敗棋王, 開始陸續新聞一直報導, 到最近不管是AI繪圖,AI Chatgpt,AI coplit...
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News