第三部《強化學習》74/100 協作任務範例:獵鹿與搬箱子 🦌 合作才有好結果!

更新 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

74/100 第八週:📌 多智慧體與競合學習

74.協作任務範例:獵鹿與搬箱子 🦌 合作才有好結果!

________________________________________

🎯 單元導讀:

在多智慧體強化學習中,如何讓多個 AI 合作,是比單一學習更複雜、更貼近現實的挑戰。

你知道嗎?

有些任務「一個人完成很容易,但效果差」;

「兩人合作困難,但回報巨大」!

經典的兩大合作範例:

🦌 獵鹿遊戲(Stag Hunt)

📦 搬箱子任務(Box Pushing)

這些任務幫助我們了解什麼是社會困境(Social Dilemma)、合作風險與信用分配問題。

________________________________________

🧠 一、什麼是獵鹿遊戲(Stag Hunt)?

源自讓·雅克·盧梭的社會契約論,形式如下:

行動 對手合作 對手不合作

你合作 🦌 皆得大獎 😢 你失敗,對手小獎

你不合作 🙂 皆得小獎 🙂 皆得小獎

📌 解釋:

只有「雙方都合作」才能一起抓到鹿(高獎勵)

若其中一人背叛(選兔子),另一人將錯失鹿,徒勞無功

👉 這是一種 風險主導型合作困境:合作的回報高,但失敗風險也高。

________________________________________

📦 二、搬箱子任務(Box Pushing)

多個 AI(如兩個機器人)需要合作推一個重箱子至目標位置,只有合力才能成功。

任務設計 特性

單人推不動 需要合作力

有誘餌箱(小箱)可一人完成 誘導偏離合作策略

成功搬大箱獎勵遠大於小箱 但須信任對方會配合

📘 常見於 PettingZoo、MPE、Unity ML-Agent 多智慧體環境中。

________________________________________

📊 三、這些任務在 RL 中的意義

面向 說明

🎯 策略選擇 如何在「小確幸」與「高風險合作」中做選擇?

💡 信任學習 AI 如何判斷對手是否值得合作?

🧮 Credit Assignment 成功合作後,該如何分配獎勵?

🧱 社會規範形成 演化過程中是否能學會彼此「互信、互利」的策略?

________________________________________

🛠 四、解決方法與技術

技術 說明

🤝 共享策略 共用 policy,提高同步性與信任度

👀 對手建模 學習對手策略,用以預測其下一步

🧠 學習溝通 使用學習式訊息機制(如 CommNet、DIAL)進行決策同步

📈 動態分配獎勵 使用「difference reward」或「shared reward」,協助學習協作偏好

________________________________________

🎮 五、應用範例

任務 合作意涵

🛻 自駕車會讓道與換道合作 需彼此理解意圖

🦾 倉儲機器人協同搬貨 同步行動才有效率

🧑‍🚒 災害救援機器人救人 多方協調資源配置與任務分配

________________________________________

🧩 六、挑戰與反思任務

1️⃣ 若獎勵設計偏向個體(個人完成也可得分),是否會削弱合作誘因?

👉 是的。當個體行為可以單獨獲得回報時,agent 會傾向追求個人最短期收益,削弱合作行為的學習動機,容易產生所謂的社會困境 (social dilemma)。若任務本質需要協作,獎勵機制應適當設計團隊性獎勵或貢獻加權,才能有效驅動合作學習。

________________________________________

2️⃣ 你覺得「合作成功後」要怎麼公平分配獎勵才最有助於學習?

👉 合理的獎勵分配可以提升合作穩定性。常見方法有:

平均分配:簡單易行,避免因個人短期行為擾亂合作;

貢獻加權分配(如 counterfactual credit assignment):根據每個 agent 在合作中實際影響貢獻程度給予獎勵;

歷史表現累積獎勵:綜合考慮多輪次表現,鼓勵長期穩定合作。

合理分配讓每個 agent 能明確感受到自己的合作價值,強化協作動機。

________________________________________

3️⃣ 如果一個 agent 過去幾次都沒合作,你會讓其他 agent 還繼續嘗試合作嗎?為什麼?

👉 在設計上可以區分短期與長期考量:

短期:若對方持續背叛,短期內減少合作是合理的自保行為;

長期:考慮學習過程中,可能存在探索失誤或未學會合作的 early-stage agent,適度持續嘗試合作、設計寬容機制(如 conditional cooperation、forgiving strategies)有助整體收斂至穩定合作均衡。

實務上:引入「可恢復的信任機制」會比絕對拒絕更有助於多智慧體長期穩定合作。

________________________________________

✅ 七、小結與啟示:

🦌 獵鹿與 📦 搬箱子任務是「社會性學習」的絕佳測試場

合作策略的學習,需要信任建立、對手理解與策略對齊

如何設計合理的獎勵與通訊機制,是多智慧體合作能否成功的關鍵

從這些任務,我們正逐步走向具備「社會智慧」的 AI



留言
avatar-img
留言分享你的想法!
avatar-img
艾韓思 AIHANS|AI 應用工程筆記
28會員
528內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
2025/10/16
自我博弈讓AI透過與自身或歷史版本對戰學習策略,提升對抗適應力;Nash均衡代表各方無改變策略動機的穩定狀態。常用方法如PSRO、AlphaZero、LOLA等。設計重點在維持策略多樣性與穩定收斂,實現動態博弈中的智慧演化。
2025/10/16
自我博弈讓AI透過與自身或歷史版本對戰學習策略,提升對抗適應力;Nash均衡代表各方無改變策略動機的穩定狀態。常用方法如PSRO、AlphaZero、LOLA等。設計重點在維持策略多樣性與穩定收斂,實現動態博弈中的智慧演化。
2025/10/16
去中心化強化學習讓各AI自主決策、不依賴中央控制,強調通訊協作。通訊機制可分靜態、學習式與選擇性,需解決語意共享、延遲與任務對齊問題。良好設計能提升協作效率,應用於自駕車、智慧製造與團隊遊戲等多智能體場景。
2025/10/16
去中心化強化學習讓各AI自主決策、不依賴中央控制,強調通訊協作。通訊機制可分靜態、學習式與選擇性,需解決語意共享、延遲與任務對齊問題。良好設計能提升協作效率,應用於自駕車、智慧製造與團隊遊戲等多智能體場景。
2025/10/16
多智慧體強化學習(MARL)讓多個AI在同一環境中同時學習、合作或競爭,模擬真實社會互動。它面臨非平穩性、部分可觀測與通訊協調等挑戰。代表架構包括獨立學習、CTDE與聯合策略,演算法如MADDPG、QMIX與COMA。MARL是AI邁向社會智慧與群體決策的關鍵。
2025/10/16
多智慧體強化學習(MARL)讓多個AI在同一環境中同時學習、合作或競爭,模擬真實社會互動。它面臨非平穩性、部分可觀測與通訊協調等挑戰。代表架構包括獨立學習、CTDE與聯合策略,演算法如MADDPG、QMIX與COMA。MARL是AI邁向社會智慧與群體決策的關鍵。
看更多
你可能也想看
Thumbnail
跨領域合作與溝通 在現代AI時代中,跨領域合作與溝通能力已成為不可或缺的重要職能。隨著技術不斷發展,AI項目通常需要來自不同領域的專業知識,如技術、設計、業務等。因此,能夠與來自不同背景的人有效溝通和合作,成為實現成功的關鍵。 跨領域合作的重要性 跨領域合作涉及將不同領域的專業知識和技
Thumbnail
跨領域合作與溝通 在現代AI時代中,跨領域合作與溝通能力已成為不可或缺的重要職能。隨著技術不斷發展,AI項目通常需要來自不同領域的專業知識,如技術、設計、業務等。因此,能夠與來自不同背景的人有效溝通和合作,成為實現成功的關鍵。 跨領域合作的重要性 跨領域合作涉及將不同領域的專業知識和技
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 86 提及 SuperGLUE 任務清單,當中會包含以下欄位: 名稱 (Name):經過微調的預訓練模型的下游任務的名稱 標識符
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 86 提及 SuperGLUE 任務清單,當中會包含以下欄位: 名稱 (Name):經過微調的預訓練模型的下游任務的名稱 標識符
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News