第三部《強化學習》13/100 策略改善(Policy Improvement)🔧 怎麼變得更聰明?

更新 發佈閱讀 8 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

13/100 第二週:📌 策略與動態規劃

13.策略改善(Policy Improvement)🔧 怎麼變得更聰明?

________________________________________

🎯 單元導讀:

有了「策略評估」,我們知道每個狀態的價值是多少;

接下來的問題是——如何根據這些價值來改進策略?

這正是「策略改善(Policy Improvement)」的目標:

▶ 根據價值函數 Vπ(s) 或 Qπ(s,a),找出更好的策略 π',讓智慧體變得更聰明!

________________________________________

🧠 一、什麼是策略改善?

策略改善的核心思想是:

在每個狀態 s,挑選讓回報最大的行動 a,替換掉原來策略的選擇。

這種方法稱為 貪婪策略(Greedy Policy):

π′(s)=arg⁡ max⁡ Qπ(s,a)

📌 意思是:「看了評估後,直接挑 Q 值最高的行動,來當作新的策略 π'。」

________________________________________

🔁 二、策略評估 + 策略改善 → 策略迭代!

策略改善不單獨存在,而是與策略評估搭配運作:

1️⃣ Policy Evaluation:計算 π 的 V 值

2️⃣ Policy Improvement:根據 V 值改進 π → π′

3️⃣ 重複進行直到策略不再變化 → 收斂為最優策略 π*

這個流程稱為 策略迭代(Policy Iteration),是動態規劃中的一大核心。

________________________________________

📈 三、價值型改善法:從 V(s) 推 Q(s,a)

有時我們只有 Vπ(s),也能推導 Q 值來改善策略:

計算方式是:考慮在狀態 s 下執行動作 a 之後,可能轉移到各個後續狀態 s' 的機率 P(s'|s,a),並加總其對應的期望報酬,也就是立即獎勵 R(s,a,s') 加上折扣後的下一個狀態價值 γ * Vπ(s')。

計算出所有可能行動的 Q 值後,再選擇其中最大的 Q 值所對應的行動作為新的改進策略 π'(s)。這樣可以讓策略逐步朝向更好的方向前進。

Qπ(s,a) = Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * Vπ(s') ) ]

然後取最大值來改進策略:

π'(s) = argmax_a Qπ(s,a)

________________________________________

🕹 四、實例:迷宮遊戲中的策略改善

假設猴子在 5×5 格迷宮裡學會了每格子的 Vπ(s),

它就可以這樣做策略改善:

每次站在某格,計算四個方向(上、下、左、右)的 Q 值

選擇「Q 值最大」的方向作為下一步行動

如此一來,策略就會越來越接近「最快抓到香蕉」的路徑。

________________________________________

📦 五、策略改善法的特點與優勢

這種價值型改善法有幾個優點。首先,它具有理論上的收斂保證:每次根據現有的價值函數進行策略改善,新的策略 π' 至少不會比原來的策略差,甚至可能更好。其次,這個方法可以自然地結合在「策略評估與改善迴圈」之中,成為 Policy Iteration 或 Value Iteration 等強化學習的核心演算法。最後,它的實作相對簡單,只要有現成的 V 值或 Q 值,就可以直接用來進行策略改善,無需額外的複雜模型。

________________________________________

⚠️ 六、改善過程中的注意事項

有些環境的轉移機率 P(s'|s,a) 無法取得 → 可用模擬環境近似學習(如 Monte Carlo 或 Temporal Difference 方法)

若使用近似函數(如神經網路)估計 Q 值,策略改善可能變得不穩定 → 需加入策略平滑機制(如 softmax、actor-critic)

________________________________________

🧩 七、思考挑戰與任務

1️⃣ 如果你已經有一套人生策略(例如讀研究所),你該怎麼評估是否值得改變?

你可以把目前的人生決策看成一套「策略 π」。接著試著去評估每個決策對未來的長期回報(如職涯發展、收入、身心健康、人脈累積等)。如果發現某些決策的長期報酬(Vπ(s))偏低,或有其他更高回報的選擇存在,就可以考慮改變行動策略(π')。這就像用 價值型改善法:先評估當前策略的價值,再透過改善步驟,選擇能帶來更高期望回報的行動方向。

________________________________________

2️⃣ 在面對選擇困難時,你是根據長期回報來改善行動嗎?

許多人在面對選擇時容易只考慮短期結果(立即獎勵 R),但真正穩健的決策應該類似強化學習的思考模式,考慮:

長期回報 = 立即獎勵 + 折扣後的未來價值

= R + γ * Vπ(s')

若能將目光放長遠,評估行動背後整體可能帶來的長期效益,才能做出更穩健的策略改善。例如,短期收入 vs. 長期職涯發展、眼前安逸 vs. 未來成長潛力,這些都是折扣因子 γ 概念的體現。

________________________________________

3️⃣ 表格範例:「迷宮策略改善步驟」

  • 初始策略:π₀ 為隨機移動,因為還不知道最佳路徑,所以先隨便亂走。
  • 策略評估:計算 Vπ₀(s),透過多次試走,估計每個狀態的平均回報。
  • 策略改善:產生新策略 π₁,針對各狀態,選擇能帶來較高 V 值的動作。
  • 再評估:計算 Vπ₁(s),用新策略模擬,更新各狀態的回報估計。
  • 重複迴圈:持續評估與改善,直到策略收斂,最終收斂到最佳路徑。________________________________________

👉 這正是 Policy Iteration(策略反覆改善) 的精神。_____________________________________

✅ 八、小結與啟示

策略改善是強化學習中讓 AI 變得「更聰明」的手段

透過比較每個行動的 Q 值,可以挑選出更有價值的策略

搭配策略評估,形成策略迭代法,可保證最終學到最優策略 π*

真實人生中,我們也可以反思:現行策略是否能長期帶來高價值?是否應該「改善」?



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
10會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
策略評估用來計算在給定策略下,每個狀態的期望累積回報 Vπ(s)。核心公式是貝爾曼期望方程,透過值迭代逼近收斂。它不改變策略,而是評估策略好壞,為後續策略改善與價值型強化學習奠定基礎。
2025/09/23
策略評估用來計算在給定策略下,每個狀態的期望累積回報 Vπ(s)。核心公式是貝爾曼期望方程,透過值迭代逼近收斂。它不改變策略,而是評估策略好壞,為後續策略改善與價值型強化學習奠定基礎。
2025/09/23
本單元介紹確定策略與隨機策略。確定策略簡單穩定,適合可預測環境;隨機策略則保持探索彈性,避免陷入局部最優,適合複雜或競爭場景。實務上常混合使用:學習階段保留隨機性,部署階段採用確定策略,兼顧靈活與穩定。
2025/09/23
本單元介紹確定策略與隨機策略。確定策略簡單穩定,適合可預測環境;隨機策略則保持探索彈性,避免陷入局部最優,適合複雜或競爭場景。實務上常混合使用:學習階段保留隨機性,部署階段採用確定策略,兼顧靈活與穩定。
2025/09/23
本章回顧強化學習核心:智慧體透過回饋試錯學習,涵蓋 MDP、V(s) 與 Q(s,a)、策略 π 及 ε-greedy 探索利用。應用於遊戲、自駕車、金融與機器人。範例以 Python 建立「猴子抓香蕉」Q-learning 小遊戲,示範 RL 如何自學最佳策略。
2025/09/23
本章回顧強化學習核心:智慧體透過回饋試錯學習,涵蓋 MDP、V(s) 與 Q(s,a)、策略 π 及 ε-greedy 探索利用。應用於遊戲、自駕車、金融與機器人。範例以 Python 建立「猴子抓香蕉」Q-learning 小遊戲,示範 RL 如何自學最佳策略。
看更多
你可能也想看
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
書中介紹策略顧問的幾個核心思考脈絡與方法,透過書中所教的思考脈絡與問題解決三大支柱:批判思考、邏輯思考、假說思考,掌握問題20%的關鍵,一一拆解並解決至少80%的問題!
Thumbnail
書中介紹策略顧問的幾個核心思考脈絡與方法,透過書中所教的思考脈絡與問題解決三大支柱:批判思考、邏輯思考、假說思考,掌握問題20%的關鍵,一一拆解並解決至少80%的問題!
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
★學習能力、策略與表徵 【知覺集中】(反義詞-去集中化) 思維方式尚未成熟,導致思維方式不合邏輯,只憑知覺所及,集中注意於事物的單一層面...
Thumbnail
★學習能力、策略與表徵 【知覺集中】(反義詞-去集中化) 思維方式尚未成熟,導致思維方式不合邏輯,只憑知覺所及,集中注意於事物的單一層面...
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News