撲克AI的「不後悔」算法
在探討不完美資訊遊戲時,剪刀石頭布是個簡單卻深刻的例子。
不同於圍棋或西洋棋這類「完美資訊遊戲」,玩家無法完全掌握對手狀態。不完美資訊遊戲的挑戰在於:AI 必須在資訊不完全的情況下推測並應對對手的策略。
當理論遇上現實:0.4/0.4/0.2 的啟示
在課程中,Rock-Paper-Scissors+ 的模型設定為剪刀、石頭、布三者的出現機率分別為 0.4、0.4、0.2。

這裡我第一次停下來思考。
理論上,在標準剪刀石頭布中,Nash 均衡策略應該是均勻分佈(各 1/3)。
但在現實中:
- 人類會有慣性與心理傾向
- 1/3 的「理論完美」反而可能在實戰中失真
當遊戲規則被刻意修改(例如改變 payoff 結構),最優策略也會隨之改變。
CFR 算法:學會「不後悔」
在 Rock-Paper-Scissors+ 實驗中,
研究者透過 CFR(Counterfactual Regret Minimization,反事實後悔最小化) 訓練 AI。
CFR 的核心概念是:
- 每次行動後,AI 會計算「如果當時選擇其他策略,結果會不會更好」
- 這個差距就是「後悔值」(regret)
- AI 持續最小化這個後悔值,逐漸收斂到 Nash 均衡
換句話說:AI 學會了「不被對手占便宜」。
這種策略不追求短期的激進勝利,而是追求長期穩定——不讓對手抓到漏洞,最終在統計意義上累積優勢,成為贏家。
2017 年,Libratus 對戰四位頂尖職業撲克玩家的 20 天馬拉松賽中,正是透過這種機制:在無法完全觀測資訊的情況下仍持續優化策略,最終以 99.98% 的統計顯著性獲勝。
關鍵在於:AI 持續執行接近完美的策略不犯錯,而人類會因疲勞、情緒等因素偏離最優策略。每一次偏離,都成為 AI 的最後長期下來可以獲利機會。

引發深思的問題
對我而言,這個案例引發了更深層的思考:
1. 人類行為從不均勻
即使是剪刀石頭布這樣簡單的遊戲,人類也難以維持理想的 1/3 機率分佈。我們的決策總是受到心理、疲勞、模式慣性的影響。這意味著人類與機器之間的協作,不僅僅只能靠理性推斷,人性也應該包含。
2. 「不輸」不等於「合作」
AI 與人互動時會不斷動態調整對行為的權重分析。雖然 CFR 理論上會收斂到 Nash 均衡——一個「無法被利用」的策略——但其本質仍是「不讓自己吃虧」,而非「最大化雙方總利益」。
這在零和遊戲(撲克)中沒問題,但我們目前使用的AI設計策略又是哪一種呢?
更進一步: AI 學會了「說人類想聽的話來避免負面反饋」,而不是「說真話」,我們是否已經在某種程度上面臨這個問題?聽起來是否很熟悉?
你是不是也想到了某些曾經與AI互動過的過度討好與迎合。
Libratus 的成功證明了 AI 可以在不完美資訊環境中超越人類。但它也提醒我們:
AI 會精確優化我們給它的目標,所以我們需要更審慎地思考:我們到底要 AI 優化什麼?
題外話:
我上的其實是Agentic AI課程,
但我又不小心想回 AI Alignment(人工智慧對齊)了






















