第三部《強化學習》14/100 策略疊代（Policy Iteration）🔁 評估 + 改進反覆進化！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/23 更新2025/09/23 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

14/100 第二週：📌 策略與動態規劃

14.策略疊代（Policy Iteration）🔁 評估 + 改進反覆進化！

________________________________________

🎯 單元導讀：

在前兩篇中，我們學會了兩件事：

• 怎麼「評估」一個策略的長期價值（Policy Evaluation）

• 怎麼根據價值資訊來「改善」策略（Policy Improvement）

而當我們把這兩個步驟不斷重複交替，就形成了經典又高效的**策略疊代（Policy Iteration）**方法，幫助智慧體持續進化，直到收斂為最優策略 π*！

________________________________________

🔄 一、什麼是策略疊代？

策略疊代（Policy Iteration）是強化學習中一種基於動態規劃的策略尋優方法，流程如下：

1️⃣ 策略評估（Policy Evaluation）

　→ 根據目前策略 π，計算每個狀態的價值 Vπ(s)

2️⃣ 策略改善（Policy Improvement）

　→ 根據 Vπ(s) 選擇能最大化回報的行動，產生新策略 π'

3️⃣ 重複進行，直到策略不再變化

　→ 收斂為最優策略 π*

________________________________________

📘 二、策略疊代演算法流程

初始化 π 為任意策略

Repeat:

1. 評估策略 π，計算 Vπ(s)

2. 根據 Vπ(s) 改進 π 為 π'

Until π 不再變化（收斂）

一開始，我們先隨機或任意指定一個初始策略 π，這可能是一個不太好的策略。

接下來進入迴圈，每一輪包含兩個主要步驟：

1️⃣ 策略評估 (Policy Evaluation)：

根據目前的策略 π，計算每個狀態的價值 Vπ(s)，也就是在此策略下，從每個狀態出發所能期望累積到的長期報酬。

2️⃣ 策略改善 (Policy Improvement)：

利用剛剛計算出的 Vπ(s)，對每個狀態重新檢視可選的行動，挑選出能帶來更高期望回報的行動，更新策略為 π'。這樣新的策略理論上會不劣於舊的策略。

如此重複進行，直到整個策略 π 不再改變（即 π = π'），代表策略已經收斂，找到了最適策略（Optimal Policy）。

整個過程具有理論保證，只要每次改善都正確執行，最終一定會收斂到最好的策略。

________________________________________

🧠 三、為什麼策略疊代有效？

根據策略改善定理（Policy Improvement Theorem）：

只要根據目前的策略 π 計算出的 V 值去改進策略 π′，那麼 π′ 一定不會比 π 差，並可能更好。

📌 這代表：策略疊代一定會收斂，而且是單調不退步的過程。

________________________________________

🔍 四、策略疊代 vs 價值疊代

策略疊代與價值疊代都是用來尋找最適策略的方法。策略疊代每一輪會完整進行一次策略評估與策略改進，通常收斂次數較少，但每次計算量大、成本高；相對地，價值疊代把評估與改進結合在每次更新中，雖然每次更新較簡單，但需要更多次迭代才能收斂。策略疊代適合模型明確、狀態空間較小的環境，而價值疊代則較適合大型或需快速近似的情境。

________________________________________

🕹 五、實際例子：猴子走迷宮

假設猴子目前策略 π 是隨機移動，在 5×5 格迷宮中學習怎麼抓到香蕉。

策略疊代讓它：

1. 計算每一格的 Vπ(s)（策略評估）

2. 根據 V 值改選行動（例如往 V 值高的方向走）（策略改善）

3. 重複這個過程後，猴子就能學會走最短、最安全的抓香蕉路徑！

________________________________________

📦 六、策略疊代的應用意義

用途實例

自駕車策略尋優反覆根據駕駛經驗調整路徑選擇方式

倉儲路線優化根據儲位與需求位置反覆更新最有效搬運策略

模擬型遊戲學習 AI 自我對弈中學習行動策略，例如 AlphaZero

________________________________________

🧩 七、思考挑戰與任務

1️⃣ 你在人生中的策略是否曾經反覆評估與修正？

在人生的重大選擇中，往往就是一種「策略疊代」的過程。像是選科系、轉職或選擇伴侶，通常我們會先根據當下的理解做出選擇，隨著經驗累積、資訊更新，我們會不斷評估既有選擇帶來的長期結果（Vπ），並適時調整策略（π'），讓人生方向逐漸朝向自己期望的長期回報靠近。

2️⃣ 模擬策略疊代：四格迷宮學習最優策略

假設有一個起點到出口的四格迷宮，初始策略可能是亂走。透過多次模擬後，可以觀察哪些路徑成功率高、回報好，於是逐步修正策略，例如：

• 第一輪：隨機走；

• 第二輪：發現往右機會高，強化右移行動；

• 第三輪：進一步發現先下再右更穩定；

• 最終：收斂成最佳策略 —— 先下再右直達出口。

這就像不斷用 Vπ 來改善 π，直到找到穩定最佳解。

3️⃣ 若策略每次都變一點點，是否會陷入無限迴圈？為什麼策略疊代能收斂？

表面上看似策略每次只微調，但其實只要每次改善都能確保不劣於原策略（保證單調提升或持平），整體價值會逐漸趨近最優解。由於狀態空間與可能策略有限（或價值收斂誤差有限），理論上這樣的反覆更新最終必定會收斂，進入穩定不再變化的最優策略。因此策略疊代具有明確的收斂保證。

_______________________________________

✅ 八、小結與啟示

• 策略疊代是「評估 + 改進」的反覆循環

• 它可以保證策略越變越好，最終收斂為最優策略

• 是許多 RL 演算法（如 Actor-Critic、AlphaZero）的理論基礎

• 生活中的每一次反省與調整，其實就是你自己的「策略疊代」！

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

388內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/23

第三部《強化學習》13/100 策略改善（Policy Improvement）🔧 怎麼變得更聰明？

策略改善是強化學習中讓智慧體更聰明的關鍵，透過比較 Q 值選擇最佳行動，形成新策略。結合策略評估後，不斷迭代收斂至最優策略 π*，廣泛應用於迷宮導航等場景，也啟發人生決策應考量長期回報並持續優化行動。

2025/09/23

第三部《強化學習》13/100 策略改善（Policy Improvement）🔧 怎麼變得更聰明？

2025/09/23

第三部《強化學習》12/100 策略評估（Policy Evaluation）🧾 預測策略的長期回報！

策略評估用來計算在給定策略下，每個狀態的期望累積回報 Vπ(s)。核心公式是貝爾曼期望方程，透過值迭代逼近收斂。它不改變策略，而是評估策略好壞，為後續策略改善與價值型強化學習奠定基礎。

2025/09/23

第三部《強化學習》12/100 策略評估（Policy Evaluation）🧾 預測策略的長期回報！

2025/09/23

第三部《強化學習》11/100 確定策略與隨機策略 📜 固定行為還是依機率調整？

本單元介紹確定策略與隨機策略。確定策略簡單穩定，適合可預測環境；隨機策略則保持探索彈性，避免陷入局部最優，適合複雜或競爭場景。實務上常混合使用：學習階段保留隨機性，部署階段採用確定策略，兼顧靈活與穩定。

2025/09/23

第三部《強化學習》11/100 確定策略與隨機策略 📜 固定行為還是依機率調整？

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

#懶人料理#食譜#健康甜點

2025/10/15

Davinci的沙龍

如何在數位時代保持競爭優勢？完整AI 行銷策略不藏私一次告訴你！

在現今網路法達的數位時代，企業若要在競爭激烈的市場中脫穎而出，必須依賴更精準的網路行銷策略，而 AI（人工智慧）行銷正是其中的關鍵。AI 行銷不僅能幫助企業更精準地觸及目標受眾，還能針對受眾優化其行銷活動，提升整體成效。本文將完整介紹如何運用 AI 行銷策略，讓您的企業在數位時代保持競爭優勢。

#AI行銷

2024/08/14

Davinci的沙龍

如何在數位時代保持競爭優勢？完整AI 行銷策略不藏私一次告訴你！

#AI行銷

2024/08/14

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

#AI#ML#人工智能

2024/07/26

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

#AI#ML#人工智能

2024/07/26

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19