思維外掛｜AI如何學會「不輸」：Noam Brown 與 CFR 演算法

Eri😺腦子聲音停不下來

發佈於AI 學習

2025/10/25 更新2025/10/25 發佈閱讀 4 分鐘

撲克AI的「不後悔」算法

在探討不完美資訊遊戲時，剪刀石頭布是個簡單卻深刻的例子。

不同於圍棋或西洋棋這類「完美資訊遊戲」，玩家無法完全掌握對手狀態。不完美資訊遊戲的挑戰在於：AI 必須在資訊不完全的情況下推測並應對對手的策略。

當理論遇上現實：0.4/0.4/0.2 的啟示

在課程中，Rock-Paper-Scissors+ 的模型設定為剪刀、石頭、布三者的出現機率分別為 0.4、0.4、0.2。

這裡我第一次停下來思考。

理論上，在標準剪刀石頭布中，Nash 均衡策略應該是均勻分佈（各 1/3）。

但在現實中：

人類會有慣性與心理傾向
1/3 的「理論完美」反而可能在實戰中失真

當遊戲規則被刻意修改（例如改變 payoff 結構），最優策略也會隨之改變。

CFR 算法：學會「不後悔」

在 Rock-Paper-Scissors+ 實驗中，

研究者透過 CFR（Counterfactual Regret Minimization，反事實後悔最小化） 訓練 AI。

CFR 的核心概念是：

每次行動後，AI 會計算「如果當時選擇其他策略，結果會不會更好」
這個差距就是「後悔值」（regret）
AI 持續最小化這個後悔值，逐漸收斂到 Nash 均衡

換句話說：AI 學會了「不被對手占便宜」。

這種策略不追求短期的激進勝利，而是追求長期穩定——不讓對手抓到漏洞，最終在統計意義上累積優勢，成為贏家。

2017 年，Libratus 對戰四位頂尖職業撲克玩家的 20 天馬拉松賽中，正是透過這種機制：在無法完全觀測資訊的情況下仍持續優化策略，最終以 99.98% 的統計顯著性獲勝。

關鍵在於：AI 持續執行接近完美的策略不犯錯，而人類會因疲勞、情緒等因素偏離最優策略。每一次偏離，都成為 AI 的最後長期下來可以獲利機會。

引發深思的問題

對我而言，這個案例引發了更深層的思考：

1. 人類行為從不均勻

即使是剪刀石頭布這樣簡單的遊戲，人類也難以維持理想的 1/3 機率分佈。我們的決策總是受到心理、疲勞、模式慣性的影響。這意味著人類與機器之間的協作，不僅僅只能靠理性推斷，人性也應該包含。

2. 「不輸」不等於「合作」

AI 與人互動時會不斷動態調整對行為的權重分析。雖然 CFR 理論上會收斂到 Nash 均衡——一個「無法被利用」的策略——但其本質仍是「不讓自己吃虧」，而非「最大化雙方總利益」。

這在零和遊戲（撲克）中沒問題，但我們目前使用的AI設計策略又是哪一種呢？

更進一步： AI 學會了「說人類想聽的話來避免負面反饋」，而不是「說真話」，我們是否已經在某種程度上面臨這個問題？聽起來是否很熟悉？

你是不是也想到了某些曾經與AI互動過的過度討好與迎合。

Libratus 的成功證明了 AI 可以在不完美資訊環境中超越人類。但它也提醒我們：

AI 會精確優化我們給它的目標，所以我們需要更審慎地思考：我們到底要 AI 優化什麼？

題外話:
我上的其實是Agentic AI課程，
但我又不小心想回 AI Alignment（人工智慧對齊）了

留言

快樂，但可疑

2會員

13內容數

我在觀察人類，也在觀察人與AI的情緒互動。兩者都在學習如何「理解情緒」——只是速度不同。我寫自我覺察，也寫人機互動的覺察；也許我們都還在同一堂「成為自己」的課上。

#AI 的其他內容

出鞘的雙面刃：AI

目前共 17572 篇

賴仕涵的思考王國

💖當「我的女朋友叫GEMINI」成為公開認同：台視【熱線追蹤】觀後感

小貝的多媒體學習日記．Beibei's diary

為什麼很多專業剪輯師不用剪映？剪映 vs Adobe Premiere Pro 差異

學習玩家｜啟動玩心學習

AI 特助開聘：Notion 工作空間，終於有自動做事的 AI 員工了｜Notion Custom Agents

你可能也想看

k.S的量化投資

【深度解讀】打破百萬門檻迷思：小資族如何透過「債券孳息」打造優於定存的美元現金流？

債券投資，不只是高資產族群的遊戲在傳統的投資觀念中，海外債券（Overseas Bonds）常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻，讓許多想尋求穩定配息的小資族望而卻步。然而，在股市波動劇烈的環境下，尋求穩定的美元現金流與被動收入成為許多投資人

#玉山證券#海外債券#債券孳息

2026/02/06

k.S的量化投資

【深度解讀】打破百萬門檻迷思：小資族如何透過「債券孳息」打造優於定存的美元現金流？

#玉山證券#海外債券#債券孳息

2026/02/06

Jorge2006的沙龍

玉山證券小額債—川普又來報明牌啦!

透過川普的近期債券交易揭露，探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響，以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺，如何讓小資族也能低門檻參與海外債券市場，實現「低門檻、低波動、固定收益」的務實投資方式。

2026/03/13

2026/03/13

拒絕梭哈投資，建立財務餘裕｜玉山證券小額債為你打造資產穩定錨

解析「債券」如何成為資產配置中的穩定錨，提供低風險高回報的投資選項。藉由玉山證券的低門檻債券服務，投資者可輕鬆入手，平衡風險並穩定財務。

#投資#資產配置#債券投資

2026/03/13

CK On Board

拒絕梭哈投資，建立財務餘裕｜玉山證券小額債為你打造資產穩定錨

#投資#資產配置#債券投資

2026/03/13

小芝女看天下

任何人都能投資！用玉山證券小額債替自己存旅費：1,000 美元就能開始的穩健理財法

相較於波動較大的股票，債券能提供固定現金流，而玉山證券推出的小額債，更以1000 美元的低門檻，讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色，大幅降低投資難度，對於希望分散風險、建立穩定現金流的人來說，玉山小額債是一個值得嘗試的理財起點。

#玉山小額債#小額債#玉山證券

2026/02/12