AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
75/100 第八週:📌 多智慧體與競合學習
75.零和博弈與對抗訓練 ♟️ AlphaZero 背後的秘密!
_______________________________________
🧠 單元導讀:
在現實世界或遊戲中,不是所有情境都是合作共贏。有時你贏就代表我輸,這種場景就稱為:
🎯 零和博弈(Zero-Sum Game)
而面對這種高度對抗的情境,AI 必須具備博弈與對抗性學習的能力,這也是 AlphaZero 成為圍棋霸主的關鍵。
________________________________________
♟ 一、什麼是零和博弈?
定義:
在零和博弈中,兩方(或多方)的總收益為零,一方的收益必定是另一方的損失。
📌 公式表達:
若 A 的得分為 +x, 則 B 的得分為 -x
玩家 A 玩家 B 結果
+1 -1 A 勝利
0 0 平手
-1 +1 B 勝利
________________________________________
🤖 二、AlphaZero 的對抗學習流程
AlphaZero 是 Google DeepMind 發表的自我對弈學習系統,能在無人類資料的情況下,打敗所有人類與傳統 AI。
✅ AlphaZero 的核心特徵:
特徵 說明
🎮 自我博弈 與自己對弈,不斷產生訓練資料
🧠 蒙地卡羅樹搜尋(MCTS) 蒙地卡羅 + 神經網路評估走法的好壞
📚 無需人類棋譜 完全從零開始訓練,靠自我強化成長
🌀 策略與價值網路 輸出每一步走法機率(策略)與棋局評估分數(價值)
________________________________________
⚔️ 三、對抗訓練(Adversarial Training)
對抗性學習的目標,是讓 AI 不僅「做得好」,還要能「預測對手行為並擊敗對手」。
🧱 訓練方式:
1. 自我對弈(Self-Play):
o 漸進學習,AI 與歷史版本自己對打,提升策略穩定性
2. 對抗策略擴展(Population-Based Training):
o 不同策略間混合對弈,避免陷入同質性策略困境
3. Nash 混合策略學習(PSRO、NFSP):
o 嘗試收斂至Nash 均衡,讓任何對手無法佔便宜
________________________________________
🏁 四、AlphaZero 與傳統 AI 的關鍵差異
在棋類 AI 中,傳統棋力 AI(如 Stockfish) 主要透過大量枚舉搜尋所有可能局面,搭配人工設計的評分表進行評估,訓練依賴人類棋譜與專家知識,策略演進較依賴固定評估函數,難以自我調整;其表現強大但略顯死板。相比之下,AlphaZero 採用蒙地卡羅樹搜尋結合神經網路預估價值與策略,不需人類資料,完全靠自我對弈學習,神經網路能自主學習策略與局勢評分,表現靈活且具創造性,展現出突破性的新穎棋風與高效自學能力。
________________________________________
🎲 五、零和博弈的應用範圍
應用場域 對抗角色 對抗策略任務
🕹️ 電競 AI 玩家 vs 玩家 即時戰略與資源博弈
⚔️ 軍事模擬 進攻 vs 防守 模擬戰場戰略學習
🤖 網路安全 攻擊者 vs 防護者 侵入與防禦學習
💱 金融交易 做多 vs 做空 對手意圖預測與搶先操作
________________________________________
🧩 六、反思與實作挑戰
1️⃣ 零和博弈的 AI 若遇上非零和的多任務場景,是否還能勝任?
👉 傳統設計為零和博弈(如棋類)的 AI,策略多著重於完全對抗,若直接應用在非零和、多任務合作或競合場景,往往缺乏協作與資源共享的機制,可能難以勝任。非零和場景中,需引入能處理「部分合作、部分競爭」的 混合型策略學習架構,如多智能體強化學習(MARL)、博弈擴展模型與動態信用分配機制,來兼顧共利與博弈動態。
________________________________________
2️⃣ 如何避免自我對弈陷入「自我強化的偏見」?
👉 自我對弈若缺乏多樣性,可能導致策略僅針對自我過往弱點優化,形成 模式崩壞(mode collapse) 或策略封閉,失去泛化能力。可採用:
• 保留歷史策略池(如 AlphaZero 策略對手池)
• 引入隨機擾動與探索性正則化(如 entropy bonus)
• 多樣對抗訓練(如 population-based training、PSRO)
• 加入外部對手干擾測試
以此維持策略多樣性與泛化適應性。
________________________________________
3️⃣ 在非結構明確的場景(如金融市場),AI 如何辨識誰是對手?又該怎麼學?
👉 在金融市場這種隱含對手高度不明確的環境中,AI 需學會:
• 間接建模環境動態(如使用模型型 RL 預測市場轉移)
• 隱式博弈建模(透過 market response 反推隱含對手行為)
• 自我博弈訓練(在模擬中訓練多種假設對手,提升穩定性)
• 強調穩健決策與風險控制(如 robust RL、distributional RL)
此類場景強化了 AI 對「環境即博弈」的理解能力,而非僅靠明確對手標籤。
______________________________________
✅ 小結:
• 零和博弈是強化學習邁向「智慧對抗」的關鍵一環
• AlphaZero 展現了透過自我對弈與策略演化,可達到超越人類的智慧
• 在 AI 實務應用中,對抗性訓練是未來智慧戰略應用的核心力量









