AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
74/100 第八週:📌 多智慧體與競合學習
74.協作任務範例:獵鹿與搬箱子 🦌 合作才有好結果!
________________________________________
🎯 單元導讀:
在多智慧體強化學習中,如何讓多個 AI 合作,是比單一學習更複雜、更貼近現實的挑戰。
你知道嗎?
有些任務「一個人完成很容易,但效果差」;
「兩人合作困難,但回報巨大」!
經典的兩大合作範例:
• 🦌 獵鹿遊戲(Stag Hunt)
• 📦 搬箱子任務(Box Pushing)
這些任務幫助我們了解什麼是社會困境(Social Dilemma)、合作風險與信用分配問題。
________________________________________
🧠 一、什麼是獵鹿遊戲(Stag Hunt)?
源自讓·雅克·盧梭的社會契約論,形式如下:
行動 對手合作 對手不合作
你合作 🦌 皆得大獎 😢 你失敗,對手小獎
你不合作 🙂 皆得小獎 🙂 皆得小獎
📌 解釋:
• 只有「雙方都合作」才能一起抓到鹿(高獎勵)
• 若其中一人背叛(選兔子),另一人將錯失鹿,徒勞無功
👉 這是一種 風險主導型合作困境:合作的回報高,但失敗風險也高。
________________________________________
📦 二、搬箱子任務(Box Pushing)
多個 AI(如兩個機器人)需要合作推一個重箱子至目標位置,只有合力才能成功。
任務設計 特性
單人推不動 需要合作力
有誘餌箱(小箱)可一人完成 誘導偏離合作策略
成功搬大箱獎勵遠大於小箱 但須信任對方會配合
📘 常見於 PettingZoo、MPE、Unity ML-Agent 多智慧體環境中。
________________________________________
📊 三、這些任務在 RL 中的意義
面向 說明
🎯 策略選擇 如何在「小確幸」與「高風險合作」中做選擇?
💡 信任學習 AI 如何判斷對手是否值得合作?
🧮 Credit Assignment 成功合作後,該如何分配獎勵?
🧱 社會規範形成 演化過程中是否能學會彼此「互信、互利」的策略?
________________________________________
🛠 四、解決方法與技術
技術 說明
🤝 共享策略 共用 policy,提高同步性與信任度
👀 對手建模 學習對手策略,用以預測其下一步
🧠 學習溝通 使用學習式訊息機制(如 CommNet、DIAL)進行決策同步
📈 動態分配獎勵 使用「difference reward」或「shared reward」,協助學習協作偏好
________________________________________
🎮 五、應用範例
任務 合作意涵
🛻 自駕車會讓道與換道合作 需彼此理解意圖
🦾 倉儲機器人協同搬貨 同步行動才有效率
🧑🚒 災害救援機器人救人 多方協調資源配置與任務分配
________________________________________
🧩 六、挑戰與反思任務
1️⃣ 若獎勵設計偏向個體(個人完成也可得分),是否會削弱合作誘因?
👉 是的。當個體行為可以單獨獲得回報時,agent 會傾向追求個人最短期收益,削弱合作行為的學習動機,容易產生所謂的社會困境 (social dilemma)。若任務本質需要協作,獎勵機制應適當設計團隊性獎勵或貢獻加權,才能有效驅動合作學習。
________________________________________
2️⃣ 你覺得「合作成功後」要怎麼公平分配獎勵才最有助於學習?
👉 合理的獎勵分配可以提升合作穩定性。常見方法有:
• 平均分配:簡單易行,避免因個人短期行為擾亂合作;
• 貢獻加權分配(如 counterfactual credit assignment):根據每個 agent 在合作中實際影響貢獻程度給予獎勵;
• 歷史表現累積獎勵:綜合考慮多輪次表現,鼓勵長期穩定合作。
合理分配讓每個 agent 能明確感受到自己的合作價值,強化協作動機。
________________________________________
3️⃣ 如果一個 agent 過去幾次都沒合作,你會讓其他 agent 還繼續嘗試合作嗎?為什麼?
👉 在設計上可以區分短期與長期考量:
• 短期:若對方持續背叛,短期內減少合作是合理的自保行為;
• 長期:考慮學習過程中,可能存在探索失誤或未學會合作的 early-stage agent,適度持續嘗試合作、設計寬容機制(如 conditional cooperation、forgiving strategies)有助整體收斂至穩定合作均衡。
• 實務上:引入「可恢復的信任機制」會比絕對拒絕更有助於多智慧體長期穩定合作。
________________________________________
✅ 七、小結與啟示:
• 🦌 獵鹿與 📦 搬箱子任務是「社會性學習」的絕佳測試場
• 合作策略的學習,需要信任建立、對手理解與策略對齊
• 如何設計合理的獎勵與通訊機制,是多智慧體合作能否成功的關鍵
• 從這些任務,我們正逐步走向具備「社會智慧」的 AI









