AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》
88/100 第九週:📌 深度強化學習(Deep Reinforcement Learning)🎮
88.多代理人學習(Multi-Agent RL)🤝 團隊合作也能學!
______________________________________
🎯 單元導讀:
現實世界中的智慧行為,往往不是單一個體在行動,而是多個智慧體(Agents)彼此互動、協作甚至競爭:
🕹 多人遊戲對戰
🚗 自駕車交通協調
🤖 機器人團隊任務分工
📦 多機械臂協同搬運
本課帶你認識:
✅ Multi-Agent RL 的架構與挑戰
✅ 合作 vs 競爭場景的訓練方法
✅ 實務應用與演算法代表
________________________________________
🧠 一、什麼是多代理人強化學習(MARL)?
Multi-Agent Reinforcement Learning = 多個 Agent 同時與環境互動、學習並相互影響策略。
每個 Agent 都有自己的觀察、策略、回饋,也可能:
• 相互協作 🤝(如團隊合作)
• 相互競爭 🥊(如博弈對抗)
• 混合關係 🔄(如多人遊戲)
________________________________________
📦 二、多代理強化學習(Multi-Agent Reinforcement Learning, MARL)
🧭 定義擴展自 MDP(馬可夫決策過程) → Markov Games 或 Stochastic Games
元素 多代理人版本說明
狀態 s 整體環境狀態,可被部分或全部觀察
動作 ai
每個 Agent i 的獨立動作
策略 πi
每個 Agent 的行動策略
獎勵 ri
每個 Agent 根據行動與環境變化獲得的獨立回報
環境轉移 根據所有 Agent 的行動共同影響下一狀態 s′
上面是對傳統 MDP(馬可夫決策過程)的擴展,稱為 Markov Game 或 Stochastic Game,用來描述多個智慧體(Agent)在共享環境中交互決策的情境。其核心架構如下:
在 MARL 中,整體環境的狀態 s 可被多個代理人部分或完全觀察,每個代理人 i根據自身策略 πi選擇動作 ai,而這些動作組合 a=(a1,a2,...,an) 會共同影響環境的狀態轉移 s→s′。每位代理人根據其行為與整體環境的反應,分別獲得獨立的回饋 ri。
整體學習過程考驗的是如何在合作、競爭或混合型互動中學習出穩定而有效的策略組合。這種架構廣泛應用於資源分配、交通協調、博弈策略、機器人群體協作等複雜任務。
________________________________________
🔄 三、主要場景類型
在多代理強化學習(MARL)中,根據代理人之間的互動關係,主要可分為三種場景類型:
1️⃣ 🤝 合作協同(Cooperative):
所有代理人共享目標與獎勵,彼此合作以達成整體最優行動,例如多人搬運重物或進行大規模搜尋與救援任務。在此場景中,重點在於協調與資訊共享,使整體表現最大化。
2️⃣ 🥊 對抗競爭(Competitive):
代理人目標相互衝突,經常處於零和或博弈關係,例如對戰遊戲或圍棋對弈。每位代理人都試圖最大化自己的利益,同時壓制對手,策略需兼顧防禦與進攻。
3️⃣ 🔄 混合型(Mixed):
代理人間存在合作與競爭的混合關係,例如多人足球遊戲中的隊內合作與對手競爭,或交通網中車輛需要互相讓行卻也要爭取最短通行時間。這類場景下的策略需靈活調整,平衡合作與自利行為。
💡這三種場景反映了現實世界中人類社會、經濟與工程系統中常見的互動模式,也是設計多智能體系統時必須面對的核心挑戰。
_____________________________________
⚙️ 四、主要挑戰與困難
挑戰問題 原因與說明
✅ 策略相互依賴 其他 Agent 策略變動會改變環境動態 → 導致環境不穩定
✅ 信號稀疏/延遲 團隊成就難分配至個體行為(Credit Assignment Problem)
✅ 規模爆炸 Agent 數量一多,策略空間與狀態空間指數級膨脹
✅ 通訊限制 有些場景 Agent 間不能即時同步資訊
________________________________________
🧪 五、代表演算法分類與舉例
在多代理強化學習(MARL)中,根據訓練方式與架構設計,可以將常見方法分為以下幾類,每類方法對應不同場景與優勢:
1️⃣ 集中式訓練 + 分散執行(CTDE):代表演算法如 MADDPG(Multi-Agent DDPG)與 QMIX。這類方法在訓練階段可使用全局資訊(如所有代理的狀態與動作),提升策略學習效果;但在執行階段,各代理僅依賴自身的觀察,實現分散自主決策,適合現實中無法全知的情境。
2️⃣ 博弈論方法:如 Minimax-Q 與 Foe-Q,基於博弈理論推導,在策略更新中考量對手的最壞情況,適用於高度競爭或零和環境,強調策略的穩健性與對抗性。
3️⃣ 模仿學習與自我對弈(Self-play):如 AlphaGo 採用的自我對弈與 Population-based 策略,透過與自身或多個歷史對手互打,持續提升策略強度與適應性,特別適用於對戰遊戲與策略博弈。
4️⃣ 共享網路架構(Parameter Sharing):適用於對稱任務(如多台相同型號機器人協作),所有代理共用相同網路參數,大幅提高學習效率與穩定性,同時保留動作決策的個體差異性。
🔎 總結來說,這些分類有助於針對任務特性選擇最合適的 MARL 架構,從而在合作、競爭或混合場景中有效提升多代理系統的智能與效能。
________________________________________
🎮 六、實際應用場景
✅ MARL 應用領域與實例
- 🎮 遊戲 AI:Dota2、StarCraft II、多人 FPS 對戰
- 🚗 自駕交通:多車交匯、協同讓道、交通信號學習
- 🏭 智慧工廠:多機械手臂協同搬運、排程優化
- 🤖 機器人群體:無人機編隊、地面群機合作搜尋
- 💰 金融決策:多代理人資金管理、資產配置博弈
________________________________________
📚 七、小結與啟示
✅ MARL 模擬現實世界中多智慧體的互動本質
✅ 核心困難在於「非定靜環境 + 彼此影響 + 獎勵歸因」
✅ 集中訓練 + 分散執行是主流框架,易落實於實際部署
✅ 未來應用涵蓋智慧交通、群體機器人、虛擬團隊協作等關鍵場景
________________________________________
💬 問題挑戰與思考:
1️⃣ 若所有 Agent 共用策略(Parameter Sharing),會有哪些潛在優勢與風險?
📌 優勢:
• ✅ 效率高:只需訓練一組網路,顯著降低參數量與計算負擔。
• ✅ 泛化強:共用策略可學到更具代表性的行為模式,提升在類似情境下的穩定性。
• ✅ 訓練穩定:參數共享降低學習的非平穩性,避免策略間的干擾。
• ✅ 適合對稱任務:如機器人群體、無人機群飛、模擬蟻群,所有 Agent 執行角色一致,能自然共享策略。
⚠️ 風險:
• ❌ 無法處理角色差異:若任務中 Agent 有不同功能或責任(如足球守門員 vs 前鋒),共享策略會壓抑個別表現。
• ❌ 策略碰撞(Strategy Clashing):當多個 Agent 使用同樣策略時,可能出現動作重複或資源搶奪等衝突行為。
• ❌ 學習瓶頸:如果某些 Agent 經驗較少或環境位置特殊,會因共享策略而學不到適當行為。
💡 解法:可透過 觀察資訊嵌入自身身份(agent ID) 或 搭配注意力機制,讓共用策略仍能個別化表現。
________________________________________
2️⃣ 為什麼在競爭場景中,自我對弈(Self-play)能成為強大訓練方式?
🎯 核心原因:環境難度會自我提升,形成遞進學習曲線。
自我對弈(Self-play)是一種演化式訓練方法,讓代理人持續與歷史版本(或鏡像自己)對戰。這在競爭環境中帶來幾項關鍵優勢:
• ✅ 無需外部資料:從零開始即可發展強策略,減少對人類資料依賴(如 AlphaGo Zero)。
• ✅ 動態難度調整:對手實力隨訓練提升,自然構建「課程學習(Curriculum Learning)」。
• ✅ 避免過擬合:面對多樣化歷史對手,有助學到更具泛化能力的策略。
• ✅ 適應對手變化:模擬真實世界中對手多變的情況,提高策略韌性。
📌 延伸:結合「Population-Based Training」可讓不同策略族群互相競爭與合作,促進策略多樣性與創新性。
________________________________________
3️⃣ MARL 如何解決 Credit Assignment 問題?是否有結合注意力機制的可能性?
📌 Credit Assignment 問題是指:當多個代理一起造成某個結果時,難以判定哪個 Agent 應負責多少貢獻或錯誤。
💡 常見解法:
• Difference Reward (D_i):計算「拿掉 Agent i 後的系統表現差異」,推估其貢獻。
• Counterfactual Multi-Agent Policy Gradient(COMA):在 Actor-Critic 架構下,使用反事實基準來估計每個 Agent 的個別貢獻。
• Value Decomposition(如 QMIX):將總價值函數拆解為個別 Agent 的子價值,實現分攤與歸因。
📌 結合注意力機制的發展方向:
• ✅ MAAC(Multi-Agent Actor-Critic with Attention):透過注意力機制學習哪些其他 Agent 的狀態對自己決策影響最大,提升 credit assignment 的解釋性與精確度。
• ✅ Graph Attention Networks(GAT):在 Agent 之間建構互動圖,藉由注意力學習各 Agent 的貢獻與依賴度。
🎯 總結:
結合注意力機制能動態識別關鍵合作夥伴,有效解決 credit assignment 的模糊歸因問題,提升策略的可解釋性與效率,是 MARL 的重要研究趨勢。