第三部《強化學習》76/100 COMA（Counterfactual Multi-Agent）演算法 💥 推估團體貢

Signal Architect｜艾韓思

發佈於AI科技機器學習修煉坊

2025/10/16 更新2025/10/16 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

76/100 第八週：📌 多智慧體與競合學習

76.COMA（Counterfactual Multi-Agent）演算法 💥 推估團體貢獻！

________________________________________

🎯 單元目標：

在多智慧體強化學習中，若每個行動都影響整體結果，我們如何正確分配「誰對成功有貢獻」？

這就是「信用分配問題（Credit Assignment Problem）」。

COMA 是專為**集中訓練、分散執行（CTDE）**架構設計的解法，能有效地回答：

👉 「若某個 agent 沒有這樣做，整體結果會變好還是變壞？」

________________________________________

💡 一、COMA 是什麼？

Counterfactual Multi-Agent Policy Gradients（簡稱 COMA）是由牛津大學 Shimon Whiteson 教授團隊的 Jakob N. Foerster 等人在 2018 年 NeurIPS 論文提出的演算法，用來：

• 解決多智慧體中「個體貢獻不明」的困境

• 結合集中訓練 + 分散執行架構

• 使用「反事實基準值（Counterfactual Baseline）」來估計每個 agent 的真實貢獻

________________________________________

🧠 二、為何需要 COMA？

在多智慧體環境中，所有 agent 合作導致某一結果，但：

• 如果任務成功了，怎麼知道是哪一個 agent 幫最多？

• 如果任務失敗了，錯在誰？

這些都是信用分配問題的核心。

而 COMA 正是透過「反事實推估」來回答這個問題：

❓ 若某個 agent 在當下採取其他行動，團隊結果會變更好嗎？

________________________________________

🔧 三、COMA 架構與運作流程

✔ CTDE：Centralized Training with Decentralized Execution

階段說明

🎓 訓練階段使用全局資訊（如所有 agent 的觀測與行動）更新政策

🧭 執行階段每個 agent 僅依據自身觀測進行動作選擇

✔ COMA 核心元素：

1. Actor（每個 agent）

o 輸出自己當前狀態下的行動機率

2. Centralized Critic（集中評論者）

o 獲得所有 agent 的狀態與行為資訊

o 幫助計算每個 agent 的「反事實優勢值（Advantage）」

3. Counterfactual Advantage：

A_i(s, a_i) = Q(s, a_1, ..., a_i, ..., a_n)

- SUM_over_a_i' [ π_i(a_i' | s_i) * Q(s, a_1, ..., a_i', ..., a_n) ]

-----------------------------------------------------

在 COMA 中，A_i(s, a_i) 代表：

在當前全局狀態 s 下，agent i 採取行動 a_i，相較於它若採取其他可能行動時，對整體團隊表現所帶來的貢獻差異。

公式的前項 Q(s, a_1, ..., a_i, ..., a_n) 是實際當下所有 agent 採取當前動作組合時的總 Q 值。

後項則是將 a_i 替換成所有可能的其他行動 a_i'，依照當前策略 π_i(a_i' | s_i) 的機率分布，計算加權平均所得的期望 Q 值，作為反事實基準值 (baseline)。

透過這種「假設 agent i 沒有採取當前行動，而改做其他動作時會發生什麼」的反事實推估，COMA 有效解決了多智能體學習中的 credit assignment 問題，讓系統能公平且穩定地判斷每個 agent 對整體成果的實質貢獻。

______________________________________

🧪 四、COMA 的應用案例

任務類型 COMA 效果

🛰️ 多機器人編隊明確區分哪一個機器人對目標追蹤最有幫助

🎮 遊戲團隊作戰幫助 AI 分辨誰做了正確決策

🤖 工廠自動化精確回饋哪一條生產線或操作員最有效率

________________________________________

🆚 五、COMA vs QMIX vs IQL

• IQL (Independent Q-Learning，獨立式 Q 學習)

o 特點：每個 agent 各自學習

o 優缺點：易不穩定，無法考慮團隊互動

________________________________________

• QMIX (混合價值分解網路)

o 特點：利用混合網路合併 Q 值

o 優缺點：適合 value-based 方法

________________________________________

• COMA (Counterfactual Multi-Agent Policy Gradients，反事後多智能體策略梯度)

o 特點：利用反事實估值進行政策梯度學習

o 優缺點：適合 policy-based，精準解釋個體貢獻

________________________________________

✨ 小結：

• COMA 解決了多智慧體中最難的「誰該得獎勵？」問題

• 它用反事實推論來計算貢獻，幫助更公平且高效地訓練 agent

• 是強化學習多智慧體策略學習的重要里程碑

艾韓思 AIHANS｜AI 應用工程筆記AI科技機器學習修煉坊

留言

留言分享你的想法！

艾韓思 AIHANS｜AI 應用工程筆記

28會員

528內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

艾韓思 AIHANS｜AI 應用工程筆記的其他內容

2025/10/16

第三部《強化學習》75/100 零和博弈與對抗訓練 ♟️ AlphaZero 背後的秘密！

零和博弈代表一方得利即他方受損，AlphaZero以自我對弈與蒙地卡羅樹搜尋結合神經網路，自主學習超越人類。對抗訓練強調預測對手與策略多樣性，應用於軍事模擬、金融與網安等領域，是AI智慧博弈的核心方向。

2025/10/16

第三部《強化學習》75/100 零和博弈與對抗訓練 ♟️ AlphaZero 背後的秘密！

2025/10/16

第三部《強化學習》74/100 協作任務範例：獵鹿與搬箱子 🦌 合作才有好結果！

獵鹿與搬箱子任務揭示多智慧體合作的社會困境：高風險但高回報。AI需學會信任、溝通與合理獎勵分配，如共享策略與對手建模。獎勵設計與信任機制決定合作穩定性，這是AI邁向具社會智慧的關鍵。

2025/10/16

第三部《強化學習》74/100 協作任務範例：獵鹿與搬箱子 🦌 合作才有好結果！

2025/10/16

第三部《強化學習》73/100 自我博弈與 Nash 均衡 🤼‍♂️ 對手也在學，你怎麼應對？

自我博弈讓AI透過與自身或歷史版本對戰學習策略，提升對抗適應力；Nash均衡代表各方無改變策略動機的穩定狀態。常用方法如PSRO、AlphaZero、LOLA等。設計重點在維持策略多樣性與穩定收斂，實現動態博弈中的智慧演化。

2025/10/16

第三部《強化學習》73/100 自我博弈與 Nash 均衡 🤼‍♂️ 對手也在學，你怎麼應對？

看更多

你可能也想看