第三部《強化學習》18/100 策略提升定理與貝爾曼方程 📚 強化學習的理論支柱!

更新 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

18/100 第二週:📌 策略與動態規劃

18.策略提升定理與貝爾曼方程 📚 強化學習的理論支柱!

________________________________________

🎯 單元導讀:

在強化學習的世界裡,如何讓策略不斷變好 是核心課題之一。這一單元聚焦兩個基石理論:

貝爾曼方程(Bellman Equation):提供價值的遞迴計算方式

策略提升定理(Policy Improvement Theorem):保證你走在變強的道路上!

只要結合這兩大理論,就能透過「策略疊代」持續精進,最終收斂到最優策略!

________________________________________

📘 一、貝爾曼方程是什麼?

1️⃣ 策略價值貝爾曼方程(對任意策略 π):

Vπ(s) = Σ_a π(a | s) Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * Vπ(s') ) ]

解讀:

從狀態 s 出發,依據策略 π 執行動作 a

根據轉移機率 P(s' | s, a) 到達新狀態 s',獲得獎勵 R(s, a, s')

考慮未來的價值 Vπ(s'),其中折扣因子 γ 調整未來回報的重要性

________________________________________

👉 這就是策略評估的核心公式。

________________________________________

2️⃣ 最優價值貝爾曼方程(對最優策略 π*):

最優價值貝爾曼方程(Bellman Optimality Equation):

V*(s) = max_a Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * V*(s') ) ]

解讀:

在狀態 s 中,考慮所有可能的行動 a;

對每個行動 a,計算它的期望報酬:

先乘上轉移機率 P(s' | s, a),

獲得的即時獎勵 R(s, a, s'),

加上折扣後未來狀態的價值 γ * V*(s');

最後,從所有行動中選擇期望報酬最大的那個行動(max_a),作為該狀態的最優價值 V*(s)。

________________________________________

🔍 二、策略提升定理(Policy Improvement Theorem)

這是強化學習最迷人的「保證之一」:

只要你的新策略 π' 的每個動作在每個狀態的價值不低於 π,你就一定至少不會變差,甚至會更好!

形式上說,如果:

Qπ(s, π'(s)) ≥ Vπ(s) 對所有 s

則有:

Vπ'(s) ≥ Vπ(s)

👉 這其實就是 策略改善定理(Policy Improvement Theorem) 的核心精神:

只要新策略在每個狀態下的行動 Q 值不比原來的策略 V 值差,整體策略價值就會提升或持平。

________________________________________

🔁 三、策略疊代(Policy Iteration)

這是一個實際操作這兩個理論的流程:

1️⃣ 策略評估 根據當前策略 π 計算 Vπ(s)(使用貝爾曼方程)

2️⃣ 策略提升 使用 Q 值改進策略:π(s) ← argmaxₐ Qπ(s,a)(應用策略提升定理)

3️⃣ 重複上述步驟直到策略不再改變,即為 π*

✅ 保證有限狀態與動作下會收斂!

________________________________________

📈 四、貝爾曼方程、Q值與提升的關係圖

[Vπ(s)] => 評估價值

[Qπ(s,a)] => 考慮動作帶來的後果

argmaxₐ Qπ(s,a) => 提升策略

[新策略 π'] => 若變好,重複疊代

________________________________________

🧠 五、強化學習的本質:評估 + 改進 = 最佳決策

強化學習不只是模仿,而是:

理解目前策略的好壞(評估)

調整策略朝向更好(改善)

重複這個過程(疊代)直到收斂

這正是 AI「自學會進化」的關鍵!

________________________________________

🧩 六、思考挑戰與任務

1️⃣ 你能不能設計一個簡單的「走迷宮」任務,用策略疊代找出最快的逃脫路線?

假設你設計一個 5x5 的迷宮,起點在左上角,出口在右下角。你可以先隨機設一個初始策略(例如隨機往上下左右移動),接著用策略疊代反覆進行:先用當前策略模擬多次,計算每個格子 V 值,再根據 V 值更新每個格子的行動選擇(往期望價值高的方向移動)。不斷迭代後,最終會收斂出一條最短的逃脫路線,這就是策略疊代的實際應用範例。

2️⃣ 想像一下在人生規劃中,如果你能評估每個選擇(如讀書、工作、創業)的未來價值,你會如何疊代出最優人生策略?

在現實人生中,我們面臨許多選擇:升學、就業、轉職、創業等。若你能為每個選項估計出可能的長期回報(V 值),例如未來收入、人脈累積、生活品質等,你可以依據目前策略先模擬出 V 值,然後檢討哪些決策可以帶來更好的未來價值,逐步修正策略。透過這樣的「人生策略疊代」,你就能持續優化自己的人生決策路徑,讓整體長期回報最大化。

3️⃣ 為什麼現實中不能總是用策略疊代?是不是因為轉移機率與獎勵不明?

正是如此。在理論中,策略疊代需要完整已知的轉移機率 P(s'|s,a) 與即時獎勵 R(s,a,s')。但在現實世界,大部分的系統都缺乏完整模型:未來充滿不確定性,回報常常難以量化,行動結果也難以準確預測。因此,現實中我們往往無法直接使用完整的策略疊代,只能透過經驗互動、試探學習,這也是強化學習 (RL) 比動態規劃 (DP) 更適合現實應用的原因。

________________________________________

✅ 七、小結與啟示

貝爾曼方程讓我們「數學化地」計算價值與選擇

策略提升定理保證我們每次改進都有進步空間

策略疊代 = 評估 + 改進 + 重複,直到達到最優策略

在強化學習中,這些都是讓 AI 變強的「升級法則」


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
本單元介紹折扣因子 γ 與時間差學習 TD。γ 決定 AI 對未來回報的重視程度:小γ重視當下,大γ追求長期。TD 則透過即時更新價值,無需等待完整回合,學習效率高且穩定。兩者結合能讓 AI 同時具備長遠規劃與快速適應能力。
2025/09/23
本單元介紹折扣因子 γ 與時間差學習 TD。γ 決定 AI 對未來回報的重視程度:小γ重視當下,大γ追求長期。TD 則透過即時更新價值,無需等待完整回合,學習效率高且穩定。兩者結合能讓 AI 同時具備長遠規劃與快速適應能力。
2025/09/23
本單元介紹**動態規劃(DP)**在強化學習中的角色,適用於已知環境模型(P、R 明確)的情境。透過策略評估、改善、策略疊代與價值疊代,可有效推導最優策略。DP 運算效率高,適合小型模擬與理論分析,但現實多數情境模型未知,需依靠強化學習試錯學習來補足限制。
2025/09/23
本單元介紹**動態規劃(DP)**在強化學習中的角色,適用於已知環境模型(P、R 明確)的情境。透過策略評估、改善、策略疊代與價值疊代,可有效推導最優策略。DP 運算效率高,適合小型模擬與理論分析,但現實多數情境模型未知,需依靠強化學習試錯學習來補足限制。
2025/09/23
價值疊代透過貝爾曼最優方程直接更新 V(s),每次取能帶來最高期望回報的行動,不需完整策略評估即可逐步逼近最優策略 π*。相比策略疊代,它運算更快,適合離線規劃、遊戲 AI 與小型狀態空間決策問題。
2025/09/23
價值疊代透過貝爾曼最優方程直接更新 V(s),每次取能帶來最高期望回報的行動,不需完整策略評估即可逐步逼近最優策略 π*。相比策略疊代,它運算更快,適合離線規劃、遊戲 AI 與小型狀態空間決策問題。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News