AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
16/100 第二週:📌 策略與動態規劃
16/100 動態規劃基礎 🧮 已知環境下的最優規劃工具!
________________________________________
🎯 單元導讀:
強化學習中有一個重要的「前提特例」:
若我們對環境已經完全瞭解(如轉移機率 P、獎勵 R 都已知),那麼不一定要透過試錯學習,而是可以直接使用**動態規劃(Dynamic Programming, DP)**來找出最優策略!
這一單元幫你統整整週學過的:
• 策略評估
• 策略改善
• 策略疊代
• 價值疊代
這些其實都是「動態規劃」的應用!
________________________________________
📘 一、什麼是動態規劃(DP)?
動態規劃是用來解決多階段決策問題的最佳化技術,適用條件為:
✅ 已知模型(狀態轉移 P 與回報 R)
✅ 問題可以拆解成「子問題」
✅ 子問題間具有重疊性(可儲存計算結果避免重複)
在 RL 中,DP 被用來根據已知 MDP 模型,直接推導出最優策略與價值函數。
________________________________________
🔍 二、動態規劃在強化學習中的應用形式
方法 核心任務 是否用到策略
策略評估(Policy Evaluation) 計算 Vπ(s) ✅ 是
策略改善(Policy Improvement) 根據 Vπ(s) 改進策略 π ✅ 是
策略疊代(Policy Iteration) 評估 + 改進迴圈直到收斂 ✅ 是
價值疊代(Value Iteration) 直接根據貝爾曼最優方程更新 V(s) ❌ 不需明確策略
📌 這四個方法都是在「已知模型」下運行的動態規劃技術!
________________________________________
🧠 三、貝爾曼方程是動態規劃的靈魂
📘 貝爾曼方程是動態規劃的靈魂
不論是評估還是改善,核心公式都來自貝爾曼方程:
1️⃣ 策略價值版本(Policy Evaluation)
Vπ(s) = Σ_a π(a | s) Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * Vπ(s') ) ]
2️⃣ 最優價值版本(Value Iteration)
V*(s) = max_a Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * V*(s') ) ]
👉 這些公式讓動態規劃 (DP) 成為解決馬可夫決策過程 (MDP) 的「數學機器」。
________________________________________
📈 四、動態規劃與強化學習的關係
動態規劃(DP)與強化學習(RL)雖然都用來解決馬可夫決策過程(MDP)問題,但它們的特性不同。動態規劃需要完整已知的環境模型(包含狀態轉移機率 P 及獎勵函數 R),而強化學習則可透過與環境互動的經驗逐步學習,無需事先知道模型。面對大規模或複雜環境時,動態規劃容易因狀態空間龐大而計算爆炸,但強化學習可透過近似方法或試探探索有效學習。在應用場景上,動態規劃適合用在小型模擬、演算法教學與理論推導,而強化學習則更適合應用在真實世界中模型未知、需要線上學習的場景。
________________________________________
🕹 五、實際例子:自動導航系統(已知地圖)
如果你有一個已知的城市地圖與交通耗時矩陣,你就可以直接用 DP 計算出每個地點的最短通行策略,而不需要開車去試一遍——這正是 DP 的威力。
________________________________________
🧩 六、思考挑戰與任務
1️⃣ 如果你已經知道人生某些決策的回報結果,你會怎麼建立一個 DP 模型來規劃?
假設你已經收集了過往某些決策的成果資料,例如不同職業選擇帶來的薪資、發展、人脈累積等回報。你可以將人生的不同狀態(例如年齡、學歷、職位)定義為狀態 S,不同決策行為(例如升學、轉職、投資)定義為行動 A,根據資料推估出轉移機率 P(s'|s,a) 與獎勵 R(s,a,s'),形成一個完整的 DP 模型。接著透過價值疊代或策略疊代,幫助你模擬出長期回報最高的人生策略路徑。
2️⃣ 試著想像一個「完全可模擬的工作流程」,是否可以透過 DP 找出最高效率策略?
例如在生產線作業、倉儲物流配送、製造排程等工作流程中,若你能完整掌握設備狀態、任務分配、成本收益等資訊,就能建立出完整的環境模型。此時便可透過動態規劃反覆運算出最短時間、最低成本或最高收益的最佳作業策略,有效優化整體生產效率。
3️⃣ DP 是否有可能用來補充強化學習?
是的,DP 可以在強化學習訓練前先行發揮輔助效果。例如在模擬器中,若模型已知,可先透過動態規劃計算出近似的最佳策略作為「起始參考策略」,讓強化學習在實際訓練時有更好的初始基礎,減少訓練成本與探索風險。這種結合稱為 模擬先導訓練(Simulation-Guided RL),已在許多工業與機器人應用中廣泛使用。
________________________________________
✅ 七、小結與啟示
• 動態規劃是一種基於已知環境模型的最優策略推導方法
• 策略評估、改善、疊代與價值疊代都是動態規劃的實踐形式
• 若模型完全可知,使用 DP 是強化學習中效率最高的方法之一
• 但在現實世界中,模型通常未知,這正是強化學習(如 Q-learning)發揮作用的舞台