AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
41/100 第五週:📌 Deep Q-Network(DQN)與深度強化學習入門
41.深度強化學習是什麼?🧠 結合神經網路與強化學習的跨時代技術!
_______________________________________
🎯 單元導讀
傳統強化學習(Reinforcement Learning, RL)在處理小型、離散的狀態空間時效果良好,
但當面對如影像、語音、金融數據這類龐大或連續狀態空間時,傳統方法往往力不從心。
這時候,**深度神經網路(DNN)**就派上用場了!
**深度強化學習(Deep Reinforcement Learning, DRL)**將神經網路作為「函數逼近器」,
讓 AI 能在複雜環境中也能學會做出長期最優決策。
________________________________________
🧠 一、什麼是深度強化學習?
深度強化學習是將神經網路與強化學習的決策機制結合的一種方法。
傳統 RL 中:
• 用表格儲存 Q 值或 V 值(如 Q(s,a))
• 只能處理小型、有限狀態空間
深度 RL 中:
• 用神經網路取代表格 → 輸入是觀察(如影像),輸出是行動價值
• 可處理高維觀測、高度非線性的決策問題
核心技術是:
Q(s, a) ≈ DNN(s, a; θ)
其中神經網路參數 θ 經由誤差反向傳播學習得到。
________________________________________
🧪 二、DQN:深度 Q 網路的突破
DeepMind 在 2015 年提出 DQN(Deep Q-Network)是深度強化學習的里程碑。
它首次讓 AI 光靠畫面輸入,就能學會玩 Atari 電玩,且打敗大多數人類玩家!
DQN 的核心技巧有三個:
1️⃣ Experience Replay:儲存過往經驗,用隨機小批次訓練,打破資料相關性
2️⃣ Target Network:建立固定目標網路,減少學習震盪
3️⃣ ε-Greedy 探索策略:平衡探索新行動與利用已學知識
________________________________________
🔁 三、DRL 的學習流程(以 DQN 為例)
步驟 描述
1. 狀態觀測 從環境觀察狀態 s(如影像畫面)
2. 選擇動作 使用神經網路預測 Q(s, a),並依 ε-Greedy 策略選行動
3. 執行與回饋 在環境中執行動作 a,獲得獎勵 r 與新狀態 s'
4. 儲存經驗 將 (s, a, r, s') 存入經驗記憶池
5. 取樣訓練 隨機抽取經驗,計算 TD 誤差並反向傳播更新網路
________________________________________
📸 四、DRL 的應用場景
領域 說明
電玩與遊戲 AlphaGo、Atari 遊戲、StarCraft II 對戰
自駕車 學習駕駛策略、避開障礙、自主導航
機器人控制 自動抓取、平衡控制、操作臂協調
金融投資 學習資產配置策略、動態買賣決策
智慧工廠 自動排程、流程控制、節能操作
________________________________________
🔍 五、挑戰與注意事項
1️⃣ 訓練不穩定與發散問題
• 網路過深容易導致梯度爆炸/消失
• 隨機策略與非平穩資料難以收斂
2️⃣ 探索與利用的平衡
• 若太快收斂 → 容易陷入局部最優解
• 太多隨機探索 → 無法有效學習策略
3️⃣ 高資源需求
• 深度網路需大量 GPU 資源與記憶體
• 訓練時間長,需大規模試驗調參
________________________________________
💡 六、思考與延伸
1️⃣ 為什麼要用神經網路取代傳統表格?
👉
• 傳統表格只能處理狀態空間「有限且離散」的情境,當狀態變數多、連續或維度高時,表格法會爆炸(稱為維度詛咒)。
• 神經網路可以當作函數逼近器,學習 Q 函數或策略函數,適應大規模或連續空間。
• 深度學習讓 DRL 能處理影像、語音、複雜感知輸入,具備更強的泛化能力,能學出複雜環境中的策略。
________________________________________
2️⃣ 在你的人生中,有沒有「一開始看不清楚全局,只能慢慢學習」的任務?
👉
• 📚 職涯規劃:剛出社會時看不到全部職場生態,只能從每份工作中累積經驗修正方向。
• 🧠 人際互動:人與人之間的相處要透過日常互動慢慢修正對彼此的理解,累積判斷經驗。
• 💰 理財投資:長期投資看不到未來全局,只能透過市場反應與回饋不斷修正投資策略。
• 💪 運動訓練:剛開始訓練時不懂最佳訓練法,需逐步嘗試、調整負重與頻率,靠反覆練習學出適合自己的方法。
________________________________________
3️⃣ 試設計一個生活中的 DRL 問題:
👉
自動飲食管理 AI
• 狀態 S:目前體重、飲食紀錄、睡眠、運動量、健康數據
• 動作 A:建議飲食計畫、調整運動量、調整作息
• 獎勵 R:體重接近理想值給正獎勵;健康數據改善給額外獎勵;若體重反彈或數據惡化則扣分
• 目標:透過 DRL 學習個人化最佳飲食與運動調整計畫,長期優化健康狀態
_______________________________________
✅ 七、小結與啟示
• 深度強化學習將 AI 推向能處理高維感知與策略決策的層次
• 神經網路解決了傳統 RL 在大空間下無法學習的限制
• 雖然訓練挑戰多,但應用前景極為廣闊
• 就像人生一樣,DRL 是在不確定中尋找最優策略的旅程,每一步學習都是價值的累積!