第三部《強化學習》16/100 動態規劃基礎 🧮 已知環境下的最優規劃工具！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/23 更新2025/09/23 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

16/100 第二週：📌 策略與動態規劃

16/100 動態規劃基礎 🧮 已知環境下的最優規劃工具！

________________________________________

🎯 單元導讀：

強化學習中有一個重要的「前提特例」：

若我們對環境已經完全瞭解（如轉移機率 P、獎勵 R 都已知），那麼不一定要透過試錯學習，而是可以直接使用**動態規劃（Dynamic Programming, DP）**來找出最優策略！

這一單元幫你統整整週學過的：

• 策略評估

• 策略改善

• 策略疊代

• 價值疊代

這些其實都是「動態規劃」的應用！

________________________________________

📘 一、什麼是動態規劃（DP）？

動態規劃是用來解決多階段決策問題的最佳化技術，適用條件為：

✅ 已知模型（狀態轉移 P 與回報 R）

✅ 問題可以拆解成「子問題」

✅ 子問題間具有重疊性（可儲存計算結果避免重複）

在 RL 中，DP 被用來根據已知 MDP 模型，直接推導出最優策略與價值函數。

________________________________________

🔍 二、動態規劃在強化學習中的應用形式

方法核心任務是否用到策略

策略評估（Policy Evaluation）計算 Vπ(s) ✅ 是

策略改善（Policy Improvement) 根據 Vπ(s) 改進策略 π ✅ 是

策略疊代（Policy Iteration）評估 + 改進迴圈直到收斂 ✅ 是

價值疊代（Value Iteration）直接根據貝爾曼最優方程更新 V(s) ❌ 不需明確策略

📌 這四個方法都是在「已知模型」下運行的動態規劃技術！

________________________________________

🧠 三、貝爾曼方程是動態規劃的靈魂

📘 貝爾曼方程是動態規劃的靈魂

不論是評估還是改善，核心公式都來自貝爾曼方程：

1️⃣ 策略價值版本（Policy Evaluation）

Vπ(s) = Σ_a π(a | s) Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * Vπ(s') ) ]

2️⃣ 最優價值版本（Value Iteration）

V*(s) = max_a Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * V*(s') ) ]

👉 這些公式讓動態規劃 (DP) 成為解決馬可夫決策過程 (MDP) 的「數學機器」。

________________________________________

📈 四、動態規劃與強化學習的關係

動態規劃（DP）與強化學習（RL）雖然都用來解決馬可夫決策過程（MDP）問題，但它們的特性不同。動態規劃需要完整已知的環境模型（包含狀態轉移機率 P 及獎勵函數 R），而強化學習則可透過與環境互動的經驗逐步學習，無需事先知道模型。面對大規模或複雜環境時，動態規劃容易因狀態空間龐大而計算爆炸，但強化學習可透過近似方法或試探探索有效學習。在應用場景上，動態規劃適合用在小型模擬、演算法教學與理論推導，而強化學習則更適合應用在真實世界中模型未知、需要線上學習的場景。

________________________________________

🕹 五、實際例子：自動導航系統（已知地圖）

如果你有一個已知的城市地圖與交通耗時矩陣，你就可以直接用 DP 計算出每個地點的最短通行策略，而不需要開車去試一遍——這正是 DP 的威力。

________________________________________

🧩 六、思考挑戰與任務

1️⃣ 如果你已經知道人生某些決策的回報結果，你會怎麼建立一個 DP 模型來規劃？

假設你已經收集了過往某些決策的成果資料，例如不同職業選擇帶來的薪資、發展、人脈累積等回報。你可以將人生的不同狀態（例如年齡、學歷、職位）定義為狀態 S，不同決策行為（例如升學、轉職、投資）定義為行動 A，根據資料推估出轉移機率 P(s'|s,a) 與獎勵 R(s,a,s')，形成一個完整的 DP 模型。接著透過價值疊代或策略疊代，幫助你模擬出長期回報最高的人生策略路徑。

2️⃣ 試著想像一個「完全可模擬的工作流程」，是否可以透過 DP 找出最高效率策略？

例如在生產線作業、倉儲物流配送、製造排程等工作流程中，若你能完整掌握設備狀態、任務分配、成本收益等資訊，就能建立出完整的環境模型。此時便可透過動態規劃反覆運算出最短時間、最低成本或最高收益的最佳作業策略，有效優化整體生產效率。

3️⃣ DP 是否有可能用來補充強化學習？

是的，DP 可以在強化學習訓練前先行發揮輔助效果。例如在模擬器中，若模型已知，可先透過動態規劃計算出近似的最佳策略作為「起始參考策略」，讓強化學習在實際訓練時有更好的初始基礎，減少訓練成本與探索風險。這種結合稱為模擬先導訓練（Simulation-Guided RL），已在許多工業與機器人應用中廣泛使用。

________________________________________

✅ 七、小結與啟示

• 動態規劃是一種基於已知環境模型的最優策略推導方法

• 策略評估、改善、疊代與價值疊代都是動態規劃的實踐形式

• 若模型完全可知，使用 DP 是強化學習中效率最高的方法之一

• 但在現實世界中，模型通常未知，這正是強化學習（如 Q-learning）發揮作用的舞台