AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
18/100 第二週:📌 策略與動態規劃
18.策略提升定理與貝爾曼方程 📚 強化學習的理論支柱!
________________________________________
🎯 單元導讀:
在強化學習的世界裡,如何讓策略不斷變好 是核心課題之一。這一單元聚焦兩個基石理論:
• 貝爾曼方程(Bellman Equation):提供價值的遞迴計算方式
• 策略提升定理(Policy Improvement Theorem):保證你走在變強的道路上!
只要結合這兩大理論,就能透過「策略疊代」持續精進,最終收斂到最優策略!
________________________________________
📘 一、貝爾曼方程是什麼?
1️⃣ 策略價值貝爾曼方程(對任意策略 π):
Vπ(s) = Σ_a π(a | s) Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * Vπ(s') ) ]
解讀:
• 從狀態 s 出發,依據策略 π 執行動作 a
• 根據轉移機率 P(s' | s, a) 到達新狀態 s',獲得獎勵 R(s, a, s')
• 考慮未來的價值 Vπ(s'),其中折扣因子 γ 調整未來回報的重要性
________________________________________
👉 這就是策略評估的核心公式。
________________________________________
2️⃣ 最優價值貝爾曼方程(對最優策略 π*):
最優價值貝爾曼方程(Bellman Optimality Equation):
V*(s) = max_a Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * V*(s') ) ]
解讀:
在狀態 s 中,考慮所有可能的行動 a;
對每個行動 a,計算它的期望報酬:
先乘上轉移機率 P(s' | s, a),
獲得的即時獎勵 R(s, a, s'),
加上折扣後未來狀態的價值 γ * V*(s');
最後,從所有行動中選擇期望報酬最大的那個行動(max_a),作為該狀態的最優價值 V*(s)。
________________________________________
🔍 二、策略提升定理(Policy Improvement Theorem)
這是強化學習最迷人的「保證之一」:
只要你的新策略 π' 的每個動作在每個狀態的價值不低於 π,你就一定至少不會變差,甚至會更好!
形式上說,如果:
Qπ(s, π'(s)) ≥ Vπ(s) 對所有 s
則有:
Vπ'(s) ≥ Vπ(s)
👉 這其實就是 策略改善定理(Policy Improvement Theorem) 的核心精神:
只要新策略在每個狀態下的行動 Q 值不比原來的策略 V 值差,整體策略價值就會提升或持平。
________________________________________
🔁 三、策略疊代(Policy Iteration)
這是一個實際操作這兩個理論的流程:
1️⃣ 策略評估 根據當前策略 π 計算 Vπ(s)(使用貝爾曼方程)
2️⃣ 策略提升 使用 Q 值改進策略:π(s) ← argmaxₐ Qπ(s,a)(應用策略提升定理)
3️⃣ 重複上述步驟直到策略不再改變,即為 π*
✅ 保證有限狀態與動作下會收斂!
________________________________________
📈 四、貝爾曼方程、Q值與提升的關係圖
[Vπ(s)] => 評估價值
↓
[Qπ(s,a)] => 考慮動作帶來的後果
↓
argmaxₐ Qπ(s,a) => 提升策略
↓
[新策略 π'] => 若變好,重複疊代
________________________________________
🧠 五、強化學習的本質:評估 + 改進 = 最佳決策
強化學習不只是模仿,而是:
• 理解目前策略的好壞(評估)
• 調整策略朝向更好(改善)
• 重複這個過程(疊代)直到收斂
這正是 AI「自學會進化」的關鍵!
________________________________________
🧩 六、思考挑戰與任務
1️⃣ 你能不能設計一個簡單的「走迷宮」任務,用策略疊代找出最快的逃脫路線?
假設你設計一個 5x5 的迷宮,起點在左上角,出口在右下角。你可以先隨機設一個初始策略(例如隨機往上下左右移動),接著用策略疊代反覆進行:先用當前策略模擬多次,計算每個格子 V 值,再根據 V 值更新每個格子的行動選擇(往期望價值高的方向移動)。不斷迭代後,最終會收斂出一條最短的逃脫路線,這就是策略疊代的實際應用範例。
2️⃣ 想像一下在人生規劃中,如果你能評估每個選擇(如讀書、工作、創業)的未來價值,你會如何疊代出最優人生策略?
在現實人生中,我們面臨許多選擇:升學、就業、轉職、創業等。若你能為每個選項估計出可能的長期回報(V 值),例如未來收入、人脈累積、生活品質等,你可以依據目前策略先模擬出 V 值,然後檢討哪些決策可以帶來更好的未來價值,逐步修正策略。透過這樣的「人生策略疊代」,你就能持續優化自己的人生決策路徑,讓整體長期回報最大化。
3️⃣ 為什麼現實中不能總是用策略疊代?是不是因為轉移機率與獎勵不明?
正是如此。在理論中,策略疊代需要完整已知的轉移機率 P(s'|s,a) 與即時獎勵 R(s,a,s')。但在現實世界,大部分的系統都缺乏完整模型:未來充滿不確定性,回報常常難以量化,行動結果也難以準確預測。因此,現實中我們往往無法直接使用完整的策略疊代,只能透過經驗互動、試探學習,這也是強化學習 (RL) 比動態規劃 (DP) 更適合現實應用的原因。
________________________________________
✅ 七、小結與啟示
• 貝爾曼方程讓我們「數學化地」計算價值與選擇
• 策略提升定理保證我們每次改進都有進步空間
• 策略疊代 = 評估 + 改進 + 重複,直到達到最優策略
• 在強化學習中,這些都是讓 AI 變強的「升級法則」