第三部《強化學習》18/100 策略提升定理與貝爾曼方程 📚 強化學習的理論支柱!

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/23 更新2025/09/23 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

18/100 第二週：📌 策略與動態規劃

18.策略提升定理與貝爾曼方程 📚 強化學習的理論支柱!

________________________________________

🎯 單元導讀：

在強化學習的世界裡，如何讓策略不斷變好是核心課題之一。這一單元聚焦兩個基石理論：

• 貝爾曼方程（Bellman Equation）：提供價值的遞迴計算方式

• 策略提升定理（Policy Improvement Theorem）：保證你走在變強的道路上！

只要結合這兩大理論，就能透過「策略疊代」持續精進，最終收斂到最優策略！

________________________________________

📘 一、貝爾曼方程是什麼？

1️⃣ 策略價值貝爾曼方程（對任意策略 π）：

Vπ(s) = Σ_a π(a | s) Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * Vπ(s') ) ]

解讀：

• 從狀態 s 出發，依據策略 π 執行動作 a

• 根據轉移機率 P(s' | s, a) 到達新狀態 s'，獲得獎勵 R(s, a, s')

• 考慮未來的價值 Vπ(s')，其中折扣因子 γ 調整未來回報的重要性

________________________________________

👉 這就是策略評估的核心公式。

________________________________________

2️⃣ 最優價值貝爾曼方程（對最優策略 π*）：

最優價值貝爾曼方程（Bellman Optimality Equation）：

V*(s) = max_a Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * V*(s') ) ]

解讀：

在狀態 s 中，考慮所有可能的行動 a；

對每個行動 a，計算它的期望報酬：

先乘上轉移機率 P(s' | s, a)，

獲得的即時獎勵 R(s, a, s')，

加上折扣後未來狀態的價值 γ * V*(s')；

最後，從所有行動中選擇期望報酬最大的那個行動（max_a），作為該狀態的最優價值 V*(s)。

________________________________________

🔍 二、策略提升定理（Policy Improvement Theorem）

這是強化學習最迷人的「保證之一」：

只要你的新策略 π' 的每個動作在每個狀態的價值不低於 π，你就一定至少不會變差，甚至會更好！

形式上說，如果：

Qπ(s, π'(s)) ≥ Vπ(s) 對所有 s

則有：

Vπ'(s) ≥ Vπ(s)

👉 這其實就是策略改善定理（Policy Improvement Theorem）的核心精神：

只要新策略在每個狀態下的行動 Q 值不比原來的策略 V 值差，整體策略價值就會提升或持平。

________________________________________

🔁 三、策略疊代（Policy Iteration）

這是一個實際操作這兩個理論的流程：

1️⃣ 策略評估根據當前策略 π 計算 Vπ(s)（使用貝爾曼方程）

2️⃣ 策略提升使用 Q 值改進策略：π(s) ← argmaxₐ Qπ(s,a)（應用策略提升定理）

3️⃣ 重複上述步驟直到策略不再改變，即為 π*

✅ 保證有限狀態與動作下會收斂！

________________________________________

📈 四、貝爾曼方程、Q值與提升的關係圖

[Vπ(s)] => 評估價值

↓

[Qπ(s,a)] => 考慮動作帶來的後果

↓

argmaxₐ Qπ(s,a) => 提升策略

↓

[新策略 π'] => 若變好，重複疊代

________________________________________

🧠 五、強化學習的本質：評估 + 改進 = 最佳決策

強化學習不只是模仿，而是：

• 理解目前策略的好壞（評估）

• 調整策略朝向更好（改善）

• 重複這個過程（疊代）直到收斂

這正是 AI「自學會進化」的關鍵！

________________________________________

🧩 六、思考挑戰與任務

1️⃣ 你能不能設計一個簡單的「走迷宮」任務，用策略疊代找出最快的逃脫路線？

假設你設計一個 5x5 的迷宮，起點在左上角，出口在右下角。你可以先隨機設一個初始策略（例如隨機往上下左右移動），接著用策略疊代反覆進行：先用當前策略模擬多次，計算每個格子 V 值，再根據 V 值更新每個格子的行動選擇（往期望價值高的方向移動）。不斷迭代後，最終會收斂出一條最短的逃脫路線，這就是策略疊代的實際應用範例。

2️⃣ 想像一下在人生規劃中，如果你能評估每個選擇（如讀書、工作、創業）的未來價值，你會如何疊代出最優人生策略？

在現實人生中，我們面臨許多選擇：升學、就業、轉職、創業等。若你能為每個選項估計出可能的長期回報（V 值），例如未來收入、人脈累積、生活品質等，你可以依據目前策略先模擬出 V 值，然後檢討哪些決策可以帶來更好的未來價值，逐步修正策略。透過這樣的「人生策略疊代」，你就能持續優化自己的人生決策路徑，讓整體長期回報最大化。

3️⃣ 為什麼現實中不能總是用策略疊代？是不是因為轉移機率與獎勵不明？

正是如此。在理論中，策略疊代需要完整已知的轉移機率 P(s'|s,a) 與即時獎勵 R(s,a,s')。但在現實世界，大部分的系統都缺乏完整模型：未來充滿不確定性，回報常常難以量化，行動結果也難以準確預測。因此，現實中我們往往無法直接使用完整的策略疊代，只能透過經驗互動、試探學習，這也是強化學習 (RL) 比動態規劃 (DP) 更適合現實應用的原因。

________________________________________

✅ 七、小結與啟示

• 貝爾曼方程讓我們「數學化地」計算價值與選擇

• 策略提升定理保證我們每次改進都有進步空間

• 策略疊代 = 評估 + 改進 + 重複，直到達到最優策略

• 在強化學習中，這些都是讓 AI 變強的「升級法則」

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

459內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/23

第三部《強化學習》17/100 折扣因子與時間差學習 ⏳ 現在獎勵重要？還是未來？

本單元介紹折扣因子 γ 與時間差學習 TD。γ 決定 AI 對未來回報的重視程度：小γ重視當下，大γ追求長期。TD 則透過即時更新價值，無需等待完整回合，學習效率高且穩定。兩者結合能讓 AI 同時具備長遠規劃與快速適應能力。

2025/09/23

第三部《強化學習》17/100 折扣因子與時間差學習 ⏳ 現在獎勵重要？還是未來？

2025/09/23

第三部《強化學習》16/100 動態規劃基礎 🧮 已知環境下的最優規劃工具！

本單元介紹**動態規劃（DP）**在強化學習中的角色，適用於已知環境模型（P、R 明確）的情境。透過策略評估、改善、策略疊代與價值疊代，可有效推導最優策略。DP 運算效率高，適合小型模擬與理論分析，但現實多數情境模型未知，需依靠強化學習試錯學習來補足限制。

2025/09/23

第三部《強化學習》16/100 動態規劃基礎 🧮 已知環境下的最優規劃工具！

2025/09/23

第三部《強化學習》15/100 價值疊代（Value Iteration）📈 直接更新狀態價值！

價值疊代透過貝爾曼最優方程直接更新 V(s)，每次取能帶來最高期望回報的行動，不需完整策略評估即可逐步逼近最優策略 π*。相比策略疊代，它運算更快，適合離線規劃、遊戲 AI 與小型狀態空間決策問題。

2025/09/23

第三部《強化學習》15/100 價值疊代（Value Iteration）📈 直接更新狀態價值！

看更多

你可能也想看

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 90

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 84

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 79

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。如 AI說書 - 從0開始 - 78 所述，經過 AI說書 - 從0開始 - 74 到目前為止的實驗，應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 79

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 75

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 74 中提到，我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。有鑑於此，我們以句子「

#AI#ai#PromptEngineering

2024/07/06

Learn AI 不 BI

AI說書 - 從0開始 - 75

#AI#ai#PromptEngineering

2024/07/06

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News