AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
76/100 第八週:📌 多智慧體與競合學習
76.COMA(Counterfactual Multi-Agent)演算法 💥 推估團體貢獻!
________________________________________
🎯 單元目標:
在多智慧體強化學習中,若每個行動都影響整體結果,我們如何正確分配「誰對成功有貢獻」?
這就是「信用分配問題(Credit Assignment Problem)」。
COMA 是專為**集中訓練、分散執行(CTDE)**架構設計的解法,能有效地回答:
👉 「若某個 agent 沒有這樣做,整體結果會變好還是變壞?」
________________________________________
💡 一、COMA 是什麼?
Counterfactual Multi-Agent Policy Gradients(簡稱 COMA)是由牛津大學 Shimon Whiteson 教授團隊的 Jakob N. Foerster 等人在 2018 年 NeurIPS 論文提出的演算法,用來:
• 解決多智慧體中「個體貢獻不明」的困境
• 結合集中訓練 + 分散執行架構
• 使用「反事實基準值(Counterfactual Baseline)」來估計每個 agent 的真實貢獻
________________________________________
🧠 二、為何需要 COMA?
在多智慧體環境中,所有 agent 合作導致某一結果,但:
• 如果任務成功了,怎麼知道是哪一個 agent 幫最多?
• 如果任務失敗了,錯在誰?
這些都是信用分配問題的核心。
而 COMA 正是透過「反事實推估」來回答這個問題:
❓ 若某個 agent 在當下採取其他行動,團隊結果會變更好嗎?
________________________________________
🔧 三、COMA 架構與運作流程
✔ CTDE:Centralized Training with Decentralized Execution
階段 說明
🎓 訓練階段 使用全局資訊(如所有 agent 的觀測與行動)更新政策
🧭 執行階段 每個 agent 僅依據自身觀測進行動作選擇
✔ COMA 核心元素:
1. Actor(每個 agent)
o 輸出自己當前狀態下的行動機率
2. Centralized Critic(集中評論者)
o 獲得所有 agent 的狀態與行為資訊
o 幫助計算每個 agent 的「反事實優勢值(Advantage)」
3. Counterfactual Advantage:
A_i(s, a_i) = Q(s, a_1, ..., a_i, ..., a_n)
- SUM_over_a_i' [ π_i(a_i' | s_i) * Q(s, a_1, ..., a_i', ..., a_n) ]
-----------------------------------------------------
在 COMA 中,A_i(s, a_i) 代表:
在當前全局狀態 s 下,agent i 採取行動 a_i,相較於它若採取其他可能行動時,對整體團隊表現所帶來的貢獻差異。
公式的前項 Q(s, a_1, ..., a_i, ..., a_n) 是實際當下所有 agent 採取當前動作組合時的總 Q 值。
後項則是將 a_i 替換成所有可能的其他行動 a_i',依照當前策略 π_i(a_i' | s_i) 的機率分布,計算加權平均所得的期望 Q 值,作為反事實基準值 (baseline)。
透過這種「假設 agent i 沒有採取當前行動,而改做其他動作時會發生什麼」的反事實推估,COMA 有效解決了多智能體學習中的 credit assignment 問題,讓系統能公平且穩定地判斷每個 agent 對整體成果的實質貢獻。
______________________________________
🧪 四、COMA 的應用案例
任務類型 COMA 效果
🛰️ 多機器人編隊 明確區分哪一個機器人對目標追蹤最有幫助
🎮 遊戲團隊作戰 幫助 AI 分辨誰做了正確決策
🤖 工廠自動化 精確回饋哪一條生產線或操作員最有效率
________________________________________
🆚 五、COMA vs QMIX vs IQL
• IQL (Independent Q-Learning,獨立式 Q 學習)
o 特點:每個 agent 各自學習
o 優缺點:易不穩定,無法考慮團隊互動
________________________________________
• QMIX (混合價值分解網路)
o 特點:利用混合網路合併 Q 值
o 優缺點:適合 value-based 方法
________________________________________
• COMA (Counterfactual Multi-Agent Policy Gradients,反事後多智能體策略梯度)
o 特點:利用反事實估值進行政策梯度學習
o 優缺點:適合 policy-based,精準解釋個體貢獻
________________________________________
✨ 小結:
• COMA 解決了多智慧體中最難的「誰該得獎勵?」問題
• 它用反事實推論來計算貢獻,幫助更公平且高效地訓練 agent
• 是強化學習多智慧體策略學習的重要里程碑








