AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
83/100 第九週:📌 強化學習應用實戰
83.遊戲 AI:Atari、星海爭霸、Dota 2 🕹 玩贏人類的智慧體!
________________________________________
📍 單元導言
從最早能打贏簡單遊戲的強化學習 Agent,到能在複雜戰略遊戲中擊敗職業選手,遊戲 AI 是強化學習發展歷程中最具里程碑意義的成果之一。本單元將帶你了解三個經典案例:Atari、星海爭霸、Dota 2,並拆解它們背後的演算法核心與訓練架構。
________________________________________
🎯 一、為何遊戲是強化學習的天堂?
優勢 原因
清楚定義的規則與回饋 易於設計獎勵函數
可模擬無限次遊戲 不需冒實際風險,可反覆試錯
明確的勝負結果 有助於學習與策略比較
支援視覺輸入與複雜策略決策 測試深度學習與強化學習的結合能力(如 CNN+RL)
________________________________________
🕹 二、三大經典案例解析
📌 1. Atari(Deep Q-Network, DQN)
項目 說明
Google DeepMind ( 2013 )
遊戲類型 Breakout、Pong、Space Invaders 等多款 Atari 遊戲
技術核心 DQN(Deep Q-Network),結合 CNN + Q-Learning
特色 從畫面像素學習行為,不依賴任何手工特徵工程
成就 在超過一半遊戲中擊敗人類最佳玩家
________________________________________
📌 2. StarCraft II(AlphaStar)
項目 說明
團隊 DeepMind(2019)
技術核心 模仿學習 + 多策略強化學習(League Training)+ LSTM + MCTS
難點 巨大狀態空間、部分可觀察、長時間決策序列
特點 採用多個策略代理彼此對戰學習,演化出強大 AI 群體
成就 擊敗 99.8% 的職業選手,取得宗師排名
________________________________________
📌 3. Dota 2(OpenAI Five)
項目 說明
團隊 OpenAI(2018–2019)
技術核心 PPO(Proximal Policy Optimization)+ LSTM + Self-Play
難點 多角色、多技能、團隊合作與動態策略
訓練方式 自我對戰、自我強化、上千萬場模擬訓練
成就 擊敗國際冠軍隊伍 OG,在全球公開比賽中完勝人類隊伍
________________________________________
🧠 三、學到的核心策略與演算法
技術 / 策略 說明
DQN 適合單一行動決策、畫面輸入等簡單場景
Actor-Critic / PPO 適合處理連續動作與穩定策略更新
模仿學習(Imitation) 先模仿人類行為,快速啟動模型
自我博弈 / League Training 多智能體學習下,演化出多樣強策略,避免過度擬合單一對手
長期記憶(LSTM) 幫助模型記住過往事件,強化時序依賴能力
________________________________________
🧪 小測驗題
1️⃣ DQN 演算法最初在哪一種遊戲上表現出突破性成果?
A. 西洋棋
✅ B. Atari
C. 星海爭霸
D. Dota 2
2013 年底~2015 年初,DeepMind 以 Atari 2600 平台為實驗環境發表〈Playing Atari with Deep Reinforcement Learning〉與後續 Nature 論文。DQN 透過卷積神經網路直接從像素輸入估計 Q 值,首次在多款 Atari 遊戲超越當時的強化學習基準與部分人類玩家分數,因而被視為深度強化學習里程碑。
________________________________________
2️⃣ 下列哪個技術最常用於處理部分可觀察與長期記憶問題?
A. Q-Learning
B. CNN
✅ C. LSTM
D. GAN
在部分可觀察馬可夫決策過程(POMDP)中,單步觀測不足以描述完整狀態;模型必須「記住」先前資訊。長短期記憶網路(Long Short-Term Memory, LSTM)具備門控機制,可在時間序列中保留關鍵訊息、遺忘無用訊息,因而廣泛用於解決長期依賴與隱藏狀態問題(例如語音辨識、對話、強化學習記憶模組)。相對地:
Q-Learning:值迭代方法,無內建記憶單元。
CNN:擅長抓取局部空間特徵,對時間依賴性不足。
GAN:生成式對抗網路,重點在資料生成而非序列記憶。
🎯 反思與討論題
1️⃣ 你認為遊戲 AI 的突破,對現實世界的哪些應用場景會有直接影響?
👉 :
自駕車
機器人控制
自動金融交易
軍事模擬訓練
智慧物流與倉儲調度
⚠ 深度強化學習的長期策略、適應能力、應變決策,其實跟現實很多高風險決策場景高度相似。
2️⃣ Dota 2 與 StarCraft II 雖然都用到自我博弈訓練,但核心架構有何差異?你會如何選擇適合的訓練方式?
👉 :
Dota 2:OpenAI Five → PPO + Self-Play + LSTM
StarCraft II:AlphaStar → Imitation + League Training + LSTM + MCTS
環境的狀態空間、觀測限制、行動序列長度
3️⃣ 你覺得在未來的強化學習發展中,會不會出現「過度擬合單一訓練對手」的風險?怎麼樣的訓練方法可以降低這個問題?
👉 :
多樣化對手訓練(League Training)
引入隨機性、多場景模擬
強化泛化能力 (Generalization)
________________________________________
✨ 單元金句
「讓 AI 玩遊戲,不只是為了取勝,更是為了訓練它學會策略、應變與長期規劃。」
________________________________________
🔄 延伸學習建議
• 研究 MuZero:結合模型學習與決策推理,無需已知環境規則也能下棋打遊戲
• 探討 MARL(Multi-Agent RL)在多人團隊遊戲中的策略設計
• 模擬建立自己的 RL 遊戲代理人(可用 OpenAI Gym Atari 套件)