AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
71/100 第八週:📌 多智慧體與競合學習
71.多智慧體強化學習(MARL)是什麼?🧑🤝🧑 讓 AI 學會合作與競爭!
________________________________________
🎯 單元導讀:
現實世界中,我們很少看到「單人遊戲」:
• 🧍♂️ 自駕車要和其他車輛「協調」並「競爭」
• 🎮 電玩遊戲中有隊友(合作)也有敵人(對抗)
• 🧑🏫 教師與學生、公司與對手,本質上都涉及多方決策互動
這就需要多智慧體強化學習(Multi-Agent Reinforcement Learning, MARL),讓多個 AI 同時學習、互動與演化。
________________________________________
🧠 一、什麼是 MARL?
MARL 指的是多個 agent 同時在同一環境中學習、互動與適應,每個 agent 都具有自己的策略與目標。
根據任務設定,可以分為:
🤝 合作型(Cooperative) 多個 agent 為共同目標努力 足球、隊伍探索任務
⚔️ 競爭型(Competitive) Agent 之間目標相衝突,彼此競爭 對戰遊戲、股票交易
🧩 混合型(Mixed) 有合作也有對抗 多人團隊對抗賽、物流市場競標
________________________________________
📦 二、MARL 環境特徵與挑戰
在多智慧體強化學習(Multi-Agent RL)中,面臨數個典型挑戰。由於 多觀點 (Partial Observability),每個 agent 通常只能觀察到自身有限的局部資訊,無法掌握全局狀態;再加上 非平穩性 (Non-stationarity),當其他 agent 持續更新策略時,整個環境隨時在變動,讓學習成為移動目標 (moving target)。此外,還牽涉到 信任與博弈關係:是否選擇合作、對方是否可能背叛,形成策略上的博弈考量。最後,通訊與協作困難 也是挑戰之一,agent 之間能否有效通訊、是否共用模型參數、以及通訊是否造成額外干擾,這些都大幅增加學習設計的複雜度。
________________________________________
🛠 三、常見的 MARL 架構與演算法
多智慧體強化學習架構整理
• ✅ Independent Learner
o 說明:每個 agent 把其他 agent 視為環境的一部分,獨立進行學習。
o 代表演算法:Independent Q-Learning(獨立式 Q 學習)
________________________________________
• ✅ Centralized Training, Decentralized Execution(CTDE)
o 說明:訓練時可共用全局資訊進行協調學習,但執行時各 agent 仍獨立決策,具備實務可行性。
o 代表演算法:
• MADDPG(多智能體深度確定性策略梯度)
• QMIX(混合價值分解架構)
• COMA(反事後信用分配 Actor-Critic)
________________________________________
• ✅ Joint Action Learning
o 說明:多個 agent 共享策略網路或直接在聯合行動空間中學習整體最佳行為。
o 代表演算法:Joint Policy Search(聯合策略搜尋)
__________________________________
🔍 四、代表性演算法介紹
🧪 MADDPG(Multi-Agent DDPG,多智能體深度確定性策略梯度)
• 基於 DDPG + CTDE 架構
• Critic 可以觀察所有 agent 的狀態與行動
• Actor 在測試時只看自己的觀測 → 避免過度耦合
________________________________________
🧪 QMIX(混合價值分解架構)
• 適用於離散動作空間
• 把多個 Q 值混合成一個總值來訓練 → 適用合作型環境
________________________________________
🧪 COMA(Counterfactual Multi-Agent Policy Gradients,反事後多智能體策略梯度)
• 適合處理 credit assignment(如何判定哪個 agent 對成功有貢獻)
________________________________________
🎮 五、生活應用場景舉例
實際任務 MARL 架構
🚗 多輛自駕車協調通過十字路口 混合型、CTDE
🤖 機器人群體完成倉儲物流搬運 合作型、Joint Policy
🎮 多人對戰遊戲訓練 AI 隊伍 競爭型、MADDPG
________________________________________
🧩 六、挑戰與反思任務
1️⃣ 如果每個 agent 都在不斷改變策略,會怎樣影響學習穩定性?
👉 當每個 agent 不斷更新策略時,對其他 agent 來說,環境的行為模式也在不斷改變,形成所謂的 非平穩性 (Non-stationarity) 問題。這會讓學習演算法的收斂變得困難,因為剛學到的行為可能很快又變成無效,需要額外的穩定機制(如:緩慢更新、集中訓練等)來降低動態變化對學習的干擾。
2️⃣ 你會如何設計 agent 之間的資訊共享機制?是完全公開還是私密策略?
👉 設計資訊共享機制需依任務性質權衡:
完全公開(例如 CTDE 架構)可提升訓練效率、促進協作,但可能過度耦合,降低泛化能力。
私密策略(如 Independent Learner)較具靈活性,泛化性好,但訓練效率較低,容易互相干擾。
可考慮設計 部分共享(如共享觀測但保留部分私有策略),平衡協作效率與自主學習。
3️⃣ 假設你要設計一個隊伍 AI,在多人線上遊戲中合作對抗敵方,你會選擇哪種 MARL 架構與演算法?為什麼?
👉 多人線上遊戲強調團隊合作與即時決策,建議使用 CTDE 架構,如 QMIX 或 MADDPG:
訓練時共享全局資訊,提升團隊協作學習效果;
測試時每個 agent 仍能獨立決策,保留靈活性;
QMIX 特別適合完全合作型團隊任務,而 MADDPG 則適合有部分對抗或競爭存在的場景。
________________________________________
✅ 七、小結與啟示:
• MARL 是通往真實世界 AI 決策的必經之路
• 合作、對抗與博弈關係讓學習問題變得更複雜也更真實
• 關鍵技術:穩定學習、資訊共享、策略分工與 Credit Assignment
• 當 AI 能處理多 agent 動態互動,就真正具備「社會智慧」