AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
14/100 第二週:📌 策略與動態規劃
14.策略疊代(Policy Iteration)🔁 評估 + 改進反覆進化!
________________________________________
🎯 單元導讀:
在前兩篇中,我們學會了兩件事:
• 怎麼「評估」一個策略的長期價值(Policy Evaluation)
• 怎麼根據價值資訊來「改善」策略(Policy Improvement)
而當我們把這兩個步驟不斷重複交替,就形成了經典又高效的**策略疊代(Policy Iteration)**方法,幫助智慧體持續進化,直到收斂為最優策略 π*!
________________________________________
🔄 一、什麼是策略疊代?
策略疊代(Policy Iteration)是強化學習中一種基於動態規劃的策略尋優方法,流程如下:
1️⃣ 策略評估(Policy Evaluation)
→ 根據目前策略 π,計算每個狀態的價值 Vπ(s)
2️⃣ 策略改善(Policy Improvement)
→ 根據 Vπ(s) 選擇能最大化回報的行動,產生新策略 π'
3️⃣ 重複進行,直到策略不再變化
→ 收斂為最優策略 π*
________________________________________
📘 二、策略疊代演算法流程
初始化 π 為任意策略
Repeat:
1. 評估策略 π,計算 Vπ(s)
2. 根據 Vπ(s) 改進 π 為 π'
Until π 不再變化(收斂)
一開始,我們先隨機或任意指定一個初始策略 π,這可能是一個不太好的策略。
接下來進入迴圈,每一輪包含兩個主要步驟:
1️⃣ 策略評估 (Policy Evaluation):
根據目前的策略 π,計算每個狀態的價值 Vπ(s),也就是在此策略下,從每個狀態出發所能期望累積到的長期報酬。
2️⃣ 策略改善 (Policy Improvement):
利用剛剛計算出的 Vπ(s),對每個狀態重新檢視可選的行動,挑選出能帶來更高期望回報的行動,更新策略為 π'。這樣新的策略理論上會不劣於舊的策略。
如此重複進行,直到整個策略 π 不再改變(即 π = π'),代表策略已經收斂,找到了最適策略(Optimal Policy)。
整個過程具有理論保證,只要每次改善都正確執行,最終一定會收斂到最好的策略。
________________________________________
🧠 三、為什麼策略疊代有效?
根據策略改善定理(Policy Improvement Theorem):
只要根據目前的策略 π 計算出的 V 值去改進策略 π′,那麼 π′ 一定不會比 π 差,並可能更好。
📌 這代表:策略疊代一定會收斂,而且是單調不退步的過程。
________________________________________
🔍 四、策略疊代 vs 價值疊代
策略疊代與價值疊代都是用來尋找最適策略的方法。策略疊代每一輪會完整進行一次策略評估與策略改進,通常收斂次數較少,但每次計算量大、成本高;相對地,價值疊代把評估與改進結合在每次更新中,雖然每次更新較簡單,但需要更多次迭代才能收斂。策略疊代適合模型明確、狀態空間較小的環境,而價值疊代則較適合大型或需快速近似的情境。
________________________________________
🕹 五、實際例子:猴子走迷宮
假設猴子目前策略 π 是隨機移動,在 5×5 格迷宮中學習怎麼抓到香蕉。
策略疊代讓它:
1. 計算每一格的 Vπ(s)(策略評估)
2. 根據 V 值改選行動(例如往 V 值高的方向走)(策略改善)
3. 重複這個過程後,猴子就能學會走最短、最安全的抓香蕉路徑!
________________________________________
📦 六、策略疊代的應用意義
用途 實例
自駕車策略尋優 反覆根據駕駛經驗調整路徑選擇方式
倉儲路線優化 根據儲位與需求位置反覆更新最有效搬運策略
模擬型遊戲學習 AI 自我對弈中學習行動策略,例如 AlphaZero
________________________________________
🧩 七、思考挑戰與任務
1️⃣ 你在人生中的策略是否曾經反覆評估與修正?
在人生的重大選擇中,往往就是一種「策略疊代」的過程。像是選科系、轉職或選擇伴侶,通常我們會先根據當下的理解做出選擇,隨著經驗累積、資訊更新,我們會不斷評估既有選擇帶來的長期結果(Vπ),並適時調整策略(π'),讓人生方向逐漸朝向自己期望的長期回報靠近。
2️⃣ 模擬策略疊代:四格迷宮學習最優策略
假設有一個起點到出口的四格迷宮,初始策略可能是亂走。透過多次模擬後,可以觀察哪些路徑成功率高、回報好,於是逐步修正策略,例如:
• 第一輪:隨機走;
• 第二輪:發現往右機會高,強化右移行動;
• 第三輪:進一步發現先下再右更穩定;
• 最終:收斂成最佳策略 —— 先下再右直達出口。
這就像不斷用 Vπ 來改善 π,直到找到穩定最佳解。
3️⃣ 若策略每次都變一點點,是否會陷入無限迴圈?為什麼策略疊代能收斂?
表面上看似策略每次只微調,但其實只要每次改善都能確保不劣於原策略(保證單調提升或持平),整體價值會逐漸趨近最優解。由於狀態空間與可能策略有限(或價值收斂誤差有限),理論上這樣的反覆更新最終必定會收斂,進入穩定不再變化的最優策略。因此策略疊代具有明確的收斂保證。
_______________________________________
✅ 八、小結與啟示
• 策略疊代是「評估 + 改進」的反覆循環
• 它可以保證策略越變越好,最終收斂為最優策略
• 是許多 RL 演算法(如 Actor-Critic、AlphaZero)的理論基礎
• 生活中的每一次反省與調整,其實就是你自己的「策略疊代」!