第三部《強化學習》16/100 動態規劃基礎 🧮 已知環境下的最優規劃工具!

更新 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

16/100 第二週:📌 策略與動態規劃

16/100 動態規劃基礎 🧮 已知環境下的最優規劃工具!

________________________________________

🎯 單元導讀:

強化學習中有一個重要的「前提特例」:

若我們對環境已經完全瞭解(如轉移機率 P、獎勵 R 都已知),那麼不一定要透過試錯學習,而是可以直接使用**動態規劃(Dynamic Programming, DP)**來找出最優策略!

這一單元幫你統整整週學過的:

策略評估

策略改善

策略疊代

價值疊代

這些其實都是「動態規劃」的應用!

________________________________________

📘 一、什麼是動態規劃(DP)?

動態規劃是用來解決多階段決策問題的最佳化技術,適用條件為:

✅ 已知模型(狀態轉移 P 與回報 R)

✅ 問題可以拆解成「子問題」

✅ 子問題間具有重疊性(可儲存計算結果避免重複)

在 RL 中,DP 被用來根據已知 MDP 模型,直接推導出最優策略與價值函數。

________________________________________

🔍 二、動態規劃在強化學習中的應用形式

方法 核心任務 是否用到策略

策略評估(Policy Evaluation) 計算 Vπ(s) ✅ 是

策略改善(Policy Improvement) 根據 Vπ(s) 改進策略 π ✅ 是

策略疊代(Policy Iteration) 評估 + 改進迴圈直到收斂 ✅ 是

價值疊代(Value Iteration) 直接根據貝爾曼最優方程更新 V(s) ❌ 不需明確策略

📌 這四個方法都是在「已知模型」下運行的動態規劃技術!

________________________________________

🧠 三、貝爾曼方程是動態規劃的靈魂

📘 貝爾曼方程是動態規劃的靈魂

不論是評估還是改善,核心公式都來自貝爾曼方程:

1️⃣ 策略價值版本(Policy Evaluation)

Vπ(s) = Σ_a π(a | s) Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * Vπ(s') ) ]

2️⃣ 最優價值版本(Value Iteration)

V*(s) = max_a Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * V*(s') ) ]

👉 這些公式讓動態規劃 (DP) 成為解決馬可夫決策過程 (MDP) 的「數學機器」。

________________________________________

📈 四、動態規劃與強化學習的關係

動態規劃(DP)與強化學習(RL)雖然都用來解決馬可夫決策過程(MDP)問題,但它們的特性不同。動態規劃需要完整已知的環境模型(包含狀態轉移機率 P 及獎勵函數 R),而強化學習則可透過與環境互動的經驗逐步學習,無需事先知道模型。面對大規模或複雜環境時,動態規劃容易因狀態空間龐大而計算爆炸,但強化學習可透過近似方法或試探探索有效學習。在應用場景上,動態規劃適合用在小型模擬、演算法教學與理論推導,而強化學習則更適合應用在真實世界中模型未知、需要線上學習的場景。

________________________________________

🕹 五、實際例子:自動導航系統(已知地圖)

如果你有一個已知的城市地圖與交通耗時矩陣,你就可以直接用 DP 計算出每個地點的最短通行策略,而不需要開車去試一遍——這正是 DP 的威力。

________________________________________

🧩 六、思考挑戰與任務

1️⃣ 如果你已經知道人生某些決策的回報結果,你會怎麼建立一個 DP 模型來規劃?

假設你已經收集了過往某些決策的成果資料,例如不同職業選擇帶來的薪資、發展、人脈累積等回報。你可以將人生的不同狀態(例如年齡、學歷、職位)定義為狀態 S,不同決策行為(例如升學、轉職、投資)定義為行動 A,根據資料推估出轉移機率 P(s'|s,a) 與獎勵 R(s,a,s'),形成一個完整的 DP 模型。接著透過價值疊代或策略疊代,幫助你模擬出長期回報最高的人生策略路徑。

2️⃣ 試著想像一個「完全可模擬的工作流程」,是否可以透過 DP 找出最高效率策略?

例如在生產線作業、倉儲物流配送、製造排程等工作流程中,若你能完整掌握設備狀態、任務分配、成本收益等資訊,就能建立出完整的環境模型。此時便可透過動態規劃反覆運算出最短時間、最低成本或最高收益的最佳作業策略,有效優化整體生產效率。

3️⃣ DP 是否有可能用來補充強化學習?

是的,DP 可以在強化學習訓練前先行發揮輔助效果。例如在模擬器中,若模型已知,可先透過動態規劃計算出近似的最佳策略作為「起始參考策略」,讓強化學習在實際訓練時有更好的初始基礎,減少訓練成本與探索風險。這種結合稱為 模擬先導訓練(Simulation-Guided RL),已在許多工業與機器人應用中廣泛使用。

________________________________________

✅ 七、小結與啟示

動態規劃是一種基於已知環境模型的最優策略推導方法

策略評估、改善、疊代與價值疊代都是動態規劃的實踐形式

若模型完全可知,使用 DP 是強化學習中效率最高的方法之一

但在現實世界中,模型通常未知,這正是強化學習(如 Q-learning)發揮作用的舞台



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
價值疊代透過貝爾曼最優方程直接更新 V(s),每次取能帶來最高期望回報的行動,不需完整策略評估即可逐步逼近最優策略 π*。相比策略疊代,它運算更快,適合離線規劃、遊戲 AI 與小型狀態空間決策問題。
2025/09/23
價值疊代透過貝爾曼最優方程直接更新 V(s),每次取能帶來最高期望回報的行動,不需完整策略評估即可逐步逼近最優策略 π*。相比策略疊代,它運算更快,適合離線規劃、遊戲 AI 與小型狀態空間決策問題。
2025/09/23
策略疊代結合策略評估與策略改善,透過不斷循環更新,最終收斂為最優策略 π*。它具有單調提升與收斂保證,適用於迷宮導航、自駕車與遊戲對弈等場景,也是 AlphaZero 等演算法的重要基礎,人生決策亦可類比此過程。
2025/09/23
策略疊代結合策略評估與策略改善,透過不斷循環更新,最終收斂為最優策略 π*。它具有單調提升與收斂保證,適用於迷宮導航、自駕車與遊戲對弈等場景,也是 AlphaZero 等演算法的重要基礎,人生決策亦可類比此過程。
2025/09/23
策略改善是強化學習中讓智慧體更聰明的關鍵,透過比較 Q 值選擇最佳行動,形成新策略。結合策略評估後,不斷迭代收斂至最優策略 π*,廣泛應用於迷宮導航等場景,也啟發人生決策應考量長期回報並持續優化行動。
2025/09/23
策略改善是強化學習中讓智慧體更聰明的關鍵,透過比較 Q 值選擇最佳行動,形成新策略。結合策略評估後,不斷迭代收斂至最優策略 π*,廣泛應用於迷宮導航等場景,也啟發人生決策應考量長期回報並持續優化行動。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
動態規劃Dynamic Programming其實是 一種泛用的演算法思考方式與演算法建構框架。 動態規劃並不拘束於只能解課本上特定的的範例題。 只要我們能找出DP狀態定義、DP遞迴結構、初始條件(終止條件),就能適用動態規劃來解題,以數學的形式表達,並且在紙筆上或者電腦上、計算機上計算
Thumbnail
動態規劃Dynamic Programming其實是 一種泛用的演算法思考方式與演算法建構框架。 動態規劃並不拘束於只能解課本上特定的的範例題。 只要我們能找出DP狀態定義、DP遞迴結構、初始條件(終止條件),就能適用動態規劃來解題,以數學的形式表達,並且在紙筆上或者電腦上、計算機上計算
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News