第三部《強化學習》13/100 策略改善（Policy Improvement）🔧 怎麼變得更聰明？

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/23 更新2025/09/23 發佈閱讀 8 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

13/100 第二週：📌 策略與動態規劃

13.策略改善（Policy Improvement）🔧 怎麼變得更聰明？

________________________________________

🎯 單元導讀：

有了「策略評估」，我們知道每個狀態的價值是多少；

接下來的問題是——如何根據這些價值來改進策略？

這正是「策略改善（Policy Improvement）」的目標：

▶ 根據價值函數 Vπ(s) 或 Qπ(s,a)，找出更好的策略 π'，讓智慧體變得更聰明！

________________________________________

🧠 一、什麼是策略改善？

策略改善的核心思想是：

在每個狀態 s，挑選讓回報最大的行動 a，替換掉原來策略的選擇。

這種方法稱為貪婪策略（Greedy Policy）：

π′(s)=arg⁡ max⁡ Qπ(s,a)

📌 意思是：「看了評估後，直接挑 Q 值最高的行動，來當作新的策略 π'。」

________________________________________

🔁 二、策略評估 + 策略改善 → 策略迭代！

策略改善不單獨存在，而是與策略評估搭配運作：

1️⃣ Policy Evaluation：計算 π 的 V 值

2️⃣ Policy Improvement：根據 V 值改進 π → π′

3️⃣ 重複進行直到策略不再變化 → 收斂為最優策略 π*

這個流程稱為策略迭代（Policy Iteration），是動態規劃中的一大核心。

________________________________________

📈 三、價值型改善法：從 V(s) 推 Q(s,a)

有時我們只有 Vπ(s)，也能推導 Q 值來改善策略：

計算方式是：考慮在狀態 s 下執行動作 a 之後，可能轉移到各個後續狀態 s' 的機率 P(s'|s,a)，並加總其對應的期望報酬，也就是立即獎勵 R(s,a,s') 加上折扣後的下一個狀態價值 γ * Vπ(s')。

計算出所有可能行動的 Q 值後，再選擇其中最大的 Q 值所對應的行動作為新的改進策略 π'(s)。這樣可以讓策略逐步朝向更好的方向前進。

Qπ(s,a) = Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * Vπ(s') ) ]

然後取最大值來改進策略：

π'(s) = argmax_a Qπ(s,a)

________________________________________

🕹 四、實例：迷宮遊戲中的策略改善

假設猴子在 5×5 格迷宮裡學會了每格子的 Vπ(s)，

它就可以這樣做策略改善：

• 每次站在某格，計算四個方向（上、下、左、右）的 Q 值

• 選擇「Q 值最大」的方向作為下一步行動

如此一來，策略就會越來越接近「最快抓到香蕉」的路徑。

________________________________________

📦 五、策略改善法的特點與優勢

這種價值型改善法有幾個優點。首先，它具有理論上的收斂保證：每次根據現有的價值函數進行策略改善，新的策略 π' 至少不會比原來的策略差，甚至可能更好。其次，這個方法可以自然地結合在「策略評估與改善迴圈」之中，成為 Policy Iteration 或 Value Iteration 等強化學習的核心演算法。最後，它的實作相對簡單，只要有現成的 V 值或 Q 值，就可以直接用來進行策略改善，無需額外的複雜模型。

________________________________________

⚠️ 六、改善過程中的注意事項

• 有些環境的轉移機率 P(s'|s,a) 無法取得 → 可用模擬環境近似學習（如 Monte Carlo 或 Temporal Difference 方法）

• 若使用近似函數（如神經網路）估計 Q 值，策略改善可能變得不穩定 → 需加入策略平滑機制（如 softmax、actor-critic）

________________________________________

🧩 七、思考挑戰與任務

1️⃣ 如果你已經有一套人生策略（例如讀研究所），你該怎麼評估是否值得改變？

你可以把目前的人生決策看成一套「策略 π」。接著試著去評估每個決策對未來的長期回報（如職涯發展、收入、身心健康、人脈累積等）。如果發現某些決策的長期報酬（Vπ(s)）偏低，或有其他更高回報的選擇存在，就可以考慮改變行動策略（π'）。這就像用價值型改善法：先評估當前策略的價值，再透過改善步驟，選擇能帶來更高期望回報的行動方向。

________________________________________

2️⃣ 在面對選擇困難時，你是根據長期回報來改善行動嗎？

許多人在面對選擇時容易只考慮短期結果（立即獎勵 R），但真正穩健的決策應該類似強化學習的思考模式，考慮：

長期回報 = 立即獎勵 + 折扣後的未來價值

= R + γ * Vπ(s')

若能將目光放長遠，評估行動背後整體可能帶來的長期效益，才能做出更穩健的策略改善。例如，短期收入 vs. 長期職涯發展、眼前安逸 vs. 未來成長潛力，這些都是折扣因子 γ 概念的體現。

________________________________________

3️⃣ 表格範例：「迷宮策略改善步驟」

① 初始策略：π₀ 為隨機移動，因為還不知道最佳路徑，所以先隨便亂走。
② 策略評估：計算 Vπ₀(s)，透過多次試走，估計每個狀態的平均回報。
③ 策略改善：產生新策略 π₁，針對各狀態，選擇能帶來較高 V 值的動作。
④ 再評估：計算 Vπ₁(s)，用新策略模擬，更新各狀態的回報估計。
⑤ 重複迴圈：持續評估與改善，直到策略收斂，最終收斂到最佳路徑。________________________________________

👉 這正是 Policy Iteration（策略反覆改善）的精神。_____________________________________

✅ 八、小結與啟示

• 策略改善是強化學習中讓 AI 變得「更聰明」的手段

• 透過比較每個行動的 Q 值，可以挑選出更有價值的策略

• 搭配策略評估，形成策略迭代法，可保證最終學到最優策略 π*

• 真實人生中，我們也可以反思：現行策略是否能長期帶來高價值？是否應該「改善」？

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

439內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/23

第三部《強化學習》12/100 策略評估（Policy Evaluation）🧾 預測策略的長期回報！

策略評估用來計算在給定策略下，每個狀態的期望累積回報 Vπ(s)。核心公式是貝爾曼期望方程，透過值迭代逼近收斂。它不改變策略，而是評估策略好壞，為後續策略改善與價值型強化學習奠定基礎。

2025/09/23

第三部《強化學習》12/100 策略評估（Policy Evaluation）🧾 預測策略的長期回報！

2025/09/23

第三部《強化學習》11/100 確定策略與隨機策略 📜 固定行為還是依機率調整？

本單元介紹確定策略與隨機策略。確定策略簡單穩定，適合可預測環境；隨機策略則保持探索彈性，避免陷入局部最優，適合複雜或競爭場景。實務上常混合使用：學習階段保留隨機性，部署階段採用確定策略，兼顧靈活與穩定。

2025/09/23

第三部《強化學習》11/100 確定策略與隨機策略 📜 固定行為還是依機率調整？

2025/09/23

第三部《強化學習》第一周10/100小結與測驗：動物學習模擬 🐒 用 Python 建立 RL 小遊戲！

本章回顧強化學習核心：智慧體透過回饋試錯學習，涵蓋 MDP、V(s) 與 Q(s,a)、策略 π 及 ε-greedy 探索利用。應用於遊戲、自駕車、金融與機器人。範例以 Python 建立「猴子抓香蕉」Q-learning 小遊戲，示範 RL 如何自學最佳策略。

2025/09/23

第三部《強化學習》第一周10/100小結與測驗：動物學習模擬 🐒 用 Python 建立 RL 小遊戲！

看更多

你可能也想看

腦幽思潮

商機：優化演算法並開始交辦給人工智慧：關於飲食。

反省就是重寫自己的演算法吧？假設我就是人工智慧，或心智的可以被看作爲人工智慧的編輯器，那我的程式碼是什麼樣的？從懵懂無知到一無所知，從自以為是到自我消逝，心智只是執行它的內容，我也需要不斷優化。最好的優化就是簡化。最能創造財富的演算法就是關於如何除錯與減少任何風險。

#人工智慧#演算法#料理

2024/07/27

腦幽思潮

商機：優化演算法並開始交辦給人工智慧：關於飲食。

#人工智慧#演算法#料理

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 90

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 84

#AI#ai#PromptEngineering

2024/07/12

娜女孩

閱讀筆記：《BCG問題解決力》學習顧問公司一樣策略思考、分析並找對問題關鍵

書中介紹策略顧問的幾個核心思考脈絡與方法，透過書中所教的思考脈絡與問題解決三大支柱：批判思考、邏輯思考、假說思考，掌握問題20%的關鍵，一一拆解並解決至少80%的問題！

#BCG問題解決力#BCG#策略顧問思考法

2024/06/24

娜女孩

閱讀筆記：《BCG問題解決力》學習顧問公司一樣策略思考、分析並找對問題關鍵

#BCG問題解決力#BCG#策略顧問思考法

2024/06/24

塔妮雅的沙龍

擔心它，不如好好使用它：《CHATGPT提問課，做個懂AI的高效工作者》

為了充分發揮AI的潛力，我們必須深入瞭解其運作模式和思考邏輯，並學會與AI對話的技巧。《ChatGPT提問課，做個懂AI的高效工作者》這本書提供了豐富的實例，讓讀者更容易學會如何提出精準的問題，並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說，是一本值得一看的書。

2024/06/10

塔妮雅的沙龍

擔心它，不如好好使用它：《CHATGPT提問課，做個懂AI的高效工作者》

2024/06/10

水犬奇的沙龍

學習與認知：專有名詞解釋

★學習能力、策略與表徵【知覺集中】(反義詞-去集中化) 思維方式尚未成熟，導致思維方式不合邏輯，只憑知覺所及，集中注意於事物的單一層面...

#學習策略#認知#表徵

2024/04/30

水犬奇的沙龍

學習與認知：專有名詞解釋

★學習能力、策略與表徵【知覺集中】(反義詞-去集中化) 思維方式尚未成熟，導致思維方式不合邏輯，只憑知覺所及，集中注意於事物的單一層面...

#學習策略#認知#表徵

2024/04/30

Mauro's沙龍

提升思考框架品質－《超越AI的思考架構》

《超越AI的思考框架》聚焦決策與組織心智，強調思考品質提升。探討因果、反事實、限制等概念，旨在改進決策。內容基礎，對新手入門有助。提倡多元思維，拓展決策框架。雖深度不足，但與管理學理論相輔相成。

2024/04/21

2024/04/21

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News