第三部《強化學習》14/100 策略疊代(Policy Iteration)🔁 評估 + 改進反覆進化!

更新 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

14/100 第二週:📌 策略與動態規劃

14.策略疊代(Policy Iteration)🔁 評估 + 改進反覆進化!

________________________________________

🎯 單元導讀:

在前兩篇中,我們學會了兩件事:

怎麼「評估」一個策略的長期價值(Policy Evaluation)

怎麼根據價值資訊來「改善」策略(Policy Improvement)

而當我們把這兩個步驟不斷重複交替,就形成了經典又高效的**策略疊代(Policy Iteration)**方法,幫助智慧體持續進化,直到收斂為最優策略 π*!

________________________________________

🔄 一、什麼是策略疊代?

策略疊代(Policy Iteration)是強化學習中一種基於動態規劃的策略尋優方法,流程如下:

1️⃣ 策略評估(Policy Evaluation)

 → 根據目前策略 π,計算每個狀態的價值 Vπ(s)

2️⃣ 策略改善(Policy Improvement)

 → 根據 Vπ(s) 選擇能最大化回報的行動,產生新策略 π'

3️⃣ 重複進行,直到策略不再變化

 → 收斂為最優策略 π*

________________________________________

📘 二、策略疊代演算法流程

初始化 π 為任意策略

Repeat:

1. 評估策略 π,計算 Vπ(s)

2. 根據 Vπ(s) 改進 π 為 π'

Until π 不再變化(收斂)

一開始,我們先隨機或任意指定一個初始策略 π,這可能是一個不太好的策略。

接下來進入迴圈,每一輪包含兩個主要步驟:

1️⃣ 策略評估 (Policy Evaluation):

根據目前的策略 π,計算每個狀態的價值 Vπ(s),也就是在此策略下,從每個狀態出發所能期望累積到的長期報酬。

2️⃣ 策略改善 (Policy Improvement):

利用剛剛計算出的 Vπ(s),對每個狀態重新檢視可選的行動,挑選出能帶來更高期望回報的行動,更新策略為 π'。這樣新的策略理論上會不劣於舊的策略。

如此重複進行,直到整個策略 π 不再改變(即 π = π'),代表策略已經收斂,找到了最適策略(Optimal Policy)。

整個過程具有理論保證,只要每次改善都正確執行,最終一定會收斂到最好的策略。

________________________________________

🧠 三、為什麼策略疊代有效?

根據策略改善定理(Policy Improvement Theorem):

只要根據目前的策略 π 計算出的 V 值去改進策略 π′,那麼 π′ 一定不會比 π 差,並可能更好。

📌 這代表:策略疊代一定會收斂,而且是單調不退步的過程。

________________________________________

🔍 四、策略疊代 vs 價值疊代

策略疊代與價值疊代都是用來尋找最適策略的方法。策略疊代每一輪會完整進行一次策略評估與策略改進,通常收斂次數較少,但每次計算量大、成本高;相對地,價值疊代把評估與改進結合在每次更新中,雖然每次更新較簡單,但需要更多次迭代才能收斂。策略疊代適合模型明確、狀態空間較小的環境,而價值疊代則較適合大型或需快速近似的情境。

________________________________________

🕹 五、實際例子:猴子走迷宮

假設猴子目前策略 π 是隨機移動,在 5×5 格迷宮中學習怎麼抓到香蕉。

策略疊代讓它:

1. 計算每一格的 Vπ(s)(策略評估)

2. 根據 V 值改選行動(例如往 V 值高的方向走)(策略改善)

3. 重複這個過程後,猴子就能學會走最短、最安全的抓香蕉路徑!

________________________________________

📦 六、策略疊代的應用意義

用途 實例

自駕車策略尋優 反覆根據駕駛經驗調整路徑選擇方式

倉儲路線優化 根據儲位與需求位置反覆更新最有效搬運策略

模擬型遊戲學習 AI 自我對弈中學習行動策略,例如 AlphaZero

________________________________________

🧩 七、思考挑戰與任務

1️⃣ 你在人生中的策略是否曾經反覆評估與修正?

在人生的重大選擇中,往往就是一種「策略疊代」的過程。像是選科系、轉職或選擇伴侶,通常我們會先根據當下的理解做出選擇,隨著經驗累積、資訊更新,我們會不斷評估既有選擇帶來的長期結果(Vπ),並適時調整策略(π'),讓人生方向逐漸朝向自己期望的長期回報靠近。

2️⃣ 模擬策略疊代:四格迷宮學習最優策略

假設有一個起點到出口的四格迷宮,初始策略可能是亂走。透過多次模擬後,可以觀察哪些路徑成功率高、回報好,於是逐步修正策略,例如:

第一輪:隨機走;

第二輪:發現往右機會高,強化右移行動;

第三輪:進一步發現先下再右更穩定;

最終:收斂成最佳策略 —— 先下再右直達出口。

這就像不斷用 Vπ 來改善 π,直到找到穩定最佳解。

3️⃣ 若策略每次都變一點點,是否會陷入無限迴圈?為什麼策略疊代能收斂?

表面上看似策略每次只微調,但其實只要每次改善都能確保不劣於原策略(保證單調提升或持平),整體價值會逐漸趨近最優解。由於狀態空間與可能策略有限(或價值收斂誤差有限),理論上這樣的反覆更新最終必定會收斂,進入穩定不再變化的最優策略。因此策略疊代具有明確的收斂保證。

_______________________________________

✅ 八、小結與啟示

策略疊代是「評估 + 改進」的反覆循環

它可以保證策略越變越好,最終收斂為最優策略

是許多 RL 演算法(如 Actor-Critic、AlphaZero)的理論基礎

生活中的每一次反省與調整,其實就是你自己的「策略疊代」!


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
策略改善是強化學習中讓智慧體更聰明的關鍵,透過比較 Q 值選擇最佳行動,形成新策略。結合策略評估後,不斷迭代收斂至最優策略 π*,廣泛應用於迷宮導航等場景,也啟發人生決策應考量長期回報並持續優化行動。
2025/09/23
策略改善是強化學習中讓智慧體更聰明的關鍵,透過比較 Q 值選擇最佳行動,形成新策略。結合策略評估後,不斷迭代收斂至最優策略 π*,廣泛應用於迷宮導航等場景,也啟發人生決策應考量長期回報並持續優化行動。
2025/09/23
策略評估用來計算在給定策略下,每個狀態的期望累積回報 Vπ(s)。核心公式是貝爾曼期望方程,透過值迭代逼近收斂。它不改變策略,而是評估策略好壞,為後續策略改善與價值型強化學習奠定基礎。
2025/09/23
策略評估用來計算在給定策略下,每個狀態的期望累積回報 Vπ(s)。核心公式是貝爾曼期望方程,透過值迭代逼近收斂。它不改變策略,而是評估策略好壞,為後續策略改善與價值型強化學習奠定基礎。
2025/09/23
本單元介紹確定策略與隨機策略。確定策略簡單穩定,適合可預測環境;隨機策略則保持探索彈性,避免陷入局部最優,適合複雜或競爭場景。實務上常混合使用:學習階段保留隨機性,部署階段採用確定策略,兼顧靈活與穩定。
2025/09/23
本單元介紹確定策略與隨機策略。確定策略簡單穩定,適合可預測環境;隨機策略則保持探索彈性,避免陷入局部最優,適合複雜或競爭場景。實務上常混合使用:學習階段保留隨機性,部署階段採用確定策略,兼顧靈活與穩定。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
在現今網路法達的數位時代,企業若要在競爭激烈的市場中脫穎而出,必須依賴更精準的網路行銷策略,而 AI(人工智慧)行銷正是其中的關鍵。AI 行銷不僅能幫助企業更精準地觸及目標受眾,還能針對受眾優化其行銷活動,提升整體成效。本文將完整介紹如何運用 AI 行銷策略,讓您的企業在數位時代保持競爭優勢。
Thumbnail
在現今網路法達的數位時代,企業若要在競爭激烈的市場中脫穎而出,必須依賴更精準的網路行銷策略,而 AI(人工智慧)行銷正是其中的關鍵。AI 行銷不僅能幫助企業更精準地觸及目標受眾,還能針對受眾優化其行銷活動,提升整體成效。本文將完整介紹如何運用 AI 行銷策略,讓您的企業在數位時代保持競爭優勢。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI,開啟效率新時代,釋放創意與行銷無限潛力
Thumbnail
「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI,開啟效率新時代,釋放創意與行銷無限潛力
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
在這個快節奏的世界中,想保持創新並獲得突破,就需要懂得質疑、發現機會、快速行動並使用數據驗證想法。本文介紹了如何利用 AI 來找到下一個獨立創業突破口。想保持領先嗎?來看看這個指令吧!
Thumbnail
在這個快節奏的世界中,想保持創新並獲得突破,就需要懂得質疑、發現機會、快速行動並使用數據驗證想法。本文介紹了如何利用 AI 來找到下一個獨立創業突破口。想保持領先嗎?來看看這個指令吧!
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News