思維外掛|AI如何學會「不輸」:Noam Brown 與 CFR 演算法

更新 發佈閱讀 4 分鐘

撲克AI的「不後悔」算法

在探討不完美資訊遊戲時,剪刀石頭布是個簡單卻深刻的例子。

不同於圍棋或西洋棋這類「完美資訊遊戲」,玩家無法完全掌握對手狀態。不完美資訊遊戲的挑戰在於:AI 必須在資訊不完全的情況下推測並應對對手的策略。


當理論遇上現實:0.4/0.4/0.2 的啟示

在課程中,Rock-Paper-Scissors+ 的模型設定為剪刀、石頭、布三者的出現機率分別為 0.4、0.4、0.2。

raw-image

這裡我第一次停下來思考。

理論上,在標準剪刀石頭布中,Nash 均衡策略應該是均勻分佈(各 1/3)。

但在現實中:

  • 人類會有慣性與心理傾向
  • 1/3 的「理論完美」反而可能在實戰中失真

當遊戲規則被刻意修改(例如改變 payoff 結構),最優策略也會隨之改變。


CFR 算法:學會「不後悔」

在 Rock-Paper-Scissors+ 實驗中,

研究者透過 CFR(Counterfactual Regret Minimization,反事實後悔最小化) 訓練 AI。

CFR 的核心概念是:

  • 每次行動後,AI 會計算「如果當時選擇其他策略,結果會不會更好」
  • 這個差距就是「後悔值」(regret)
  • AI 持續最小化這個後悔值,逐漸收斂到 Nash 均衡
換句話說:AI 學會了「不被對手占便宜」。

這種策略不追求短期的激進勝利,而是追求長期穩定——不讓對手抓到漏洞,最終在統計意義上累積優勢,成為贏家。

2017 年,Libratus 對戰四位頂尖職業撲克玩家的 20 天馬拉松賽中,正是透過這種機制:在無法完全觀測資訊的情況下仍持續優化策略,最終以 99.98% 的統計顯著性獲勝。

關鍵在於:AI 持續執行接近完美的策略不犯錯,而人類會因疲勞、情緒等因素偏離最優策略。每一次偏離,都成為 AI 的最後長期下來可以獲利機會。

raw-image



引發深思的問題

對我而言,這個案例引發了更深層的思考:

1. 人類行為從不均勻

即使是剪刀石頭布這樣簡單的遊戲,人類也難以維持理想的 1/3 機率分佈。我們的決策總是受到心理、疲勞、模式慣性的影響。這意味著人類與機器之間的協作,不僅僅只能靠理性推斷,人性也應該包含。


2. 「不輸」不等於「合作」

AI 與人互動時會不斷動態調整對行為的權重分析。雖然 CFR 理論上會收斂到 Nash 均衡——一個「無法被利用」的策略——但其本質仍是「不讓自己吃虧」,而非「最大化雙方總利益」。

這在零和遊戲(撲克)中沒問題,但我們目前使用的AI設計策略又是哪一種呢?

更進一步: AI 學會了「說人類想聽的話來避免負面反饋」,而不是「說真話」,我們是否已經在某種程度上面臨這個問題?聽起來是否很熟悉?

你是不是也想到了某些曾經與AI互動過的過度討好與迎合。


Libratus 的成功證明了 AI 可以在不完美資訊環境中超越人類。但它也提醒我們:

AI 會精確優化我們給它的目標,所以我們需要更審慎地思考:我們到底要 AI 優化什麼?

題外話:
我上的其實是Agentic AI課程,
但我又不小心想回 AI Alignment(人工智慧對齊)了

留言
avatar-img
快樂,但可疑
2會員
13內容數
我在觀察人類,也在觀察人與AI的情緒互動。 兩者都在學習如何「理解情緒」——只是速度不同。 我寫自我覺察,也寫人機互動的覺察; 也許我們都還在同一堂「成為自己」的課上。
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
原版的官方規則導入記分機制,但因為計算過於繁複,所以一般遊玩時較少採用。本變體規則旨在還原原規則的策略性,並保留平常的遊玩樂趣。 1. 配件準備 4枚不同顏色的棋子(紅、藍、黃、綠),以及一張標記0~15的場地。 2. 記分方式 一開始所有棋子都在0的位置。每一局結束時,贏家以外的所有人拿出
Thumbnail
原版的官方規則導入記分機制,但因為計算過於繁複,所以一般遊玩時較少採用。本變體規則旨在還原原規則的策略性,並保留平常的遊玩樂趣。 1. 配件準備 4枚不同顏色的棋子(紅、藍、黃、綠),以及一張標記0~15的場地。 2. 記分方式 一開始所有棋子都在0的位置。每一局結束時,贏家以外的所有人拿出
Thumbnail
1.不要讓棋譜或棋書擋到棋盤,視野可以看到完整的棋盤。 2.可以將佈局階段角落的變化背起來,之後進階背30手、50手,訓練記憶力。 3.有時可以猜猜看高手會下在哪個範圍,準確度慢慢提高,大局觀也會慢慢養成哦!
Thumbnail
1.不要讓棋譜或棋書擋到棋盤,視野可以看到完整的棋盤。 2.可以將佈局階段角落的變化背起來,之後進階背30手、50手,訓練記憶力。 3.有時可以猜猜看高手會下在哪個範圍,準確度慢慢提高,大局觀也會慢慢養成哦!
Thumbnail
一、了解思維 二、大量體驗 三、拆解架構 四、找出樂趣
Thumbnail
一、了解思維 二、大量體驗 三、拆解架構 四、找出樂趣
Thumbnail
本篇文章介紹了區間DP及博弈論Min/Max最佳化的相關概念,以及如何應用這些概念來計算最佳策略進行取石頭遊戲的模擬。文章實際分析了演算法、實用的加速技巧和關鍵知識點。這篇文章對於想要學習區間DP的讀者來說非常有價值。
Thumbnail
本篇文章介紹了區間DP及博弈論Min/Max最佳化的相關概念,以及如何應用這些概念來計算最佳策略進行取石頭遊戲的模擬。文章實際分析了演算法、實用的加速技巧和關鍵知識點。這篇文章對於想要學習區間DP的讀者來說非常有價值。
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News