AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
13/100 第二週:📌 策略與動態規劃
13.策略改善(Policy Improvement)🔧 怎麼變得更聰明?
________________________________________
🎯 單元導讀:
有了「策略評估」,我們知道每個狀態的價值是多少;
接下來的問題是——如何根據這些價值來改進策略?
這正是「策略改善(Policy Improvement)」的目標:
▶ 根據價值函數 Vπ(s) 或 Qπ(s,a),找出更好的策略 π',讓智慧體變得更聰明!
________________________________________
🧠 一、什麼是策略改善?
策略改善的核心思想是:
在每個狀態 s,挑選讓回報最大的行動 a,替換掉原來策略的選擇。
這種方法稱為 貪婪策略(Greedy Policy):
π′(s)=arg max Qπ(s,a)
📌 意思是:「看了評估後,直接挑 Q 值最高的行動,來當作新的策略 π'。」
________________________________________
🔁 二、策略評估 + 策略改善 → 策略迭代!
策略改善不單獨存在,而是與策略評估搭配運作:
1️⃣ Policy Evaluation:計算 π 的 V 值
2️⃣ Policy Improvement:根據 V 值改進 π → π′
3️⃣ 重複進行直到策略不再變化 → 收斂為最優策略 π*
這個流程稱為 策略迭代(Policy Iteration),是動態規劃中的一大核心。
________________________________________
📈 三、價值型改善法:從 V(s) 推 Q(s,a)
有時我們只有 Vπ(s),也能推導 Q 值來改善策略:
計算方式是:考慮在狀態 s 下執行動作 a 之後,可能轉移到各個後續狀態 s' 的機率 P(s'|s,a),並加總其對應的期望報酬,也就是立即獎勵 R(s,a,s') 加上折扣後的下一個狀態價值 γ * Vπ(s')。
計算出所有可能行動的 Q 值後,再選擇其中最大的 Q 值所對應的行動作為新的改進策略 π'(s)。這樣可以讓策略逐步朝向更好的方向前進。
Qπ(s,a) = Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * Vπ(s') ) ]
然後取最大值來改進策略:
π'(s) = argmax_a Qπ(s,a)
________________________________________
🕹 四、實例:迷宮遊戲中的策略改善
假設猴子在 5×5 格迷宮裡學會了每格子的 Vπ(s),
它就可以這樣做策略改善:
• 每次站在某格,計算四個方向(上、下、左、右)的 Q 值
• 選擇「Q 值最大」的方向作為下一步行動
如此一來,策略就會越來越接近「最快抓到香蕉」的路徑。
________________________________________
📦 五、策略改善法的特點與優勢
這種價值型改善法有幾個優點。首先,它具有理論上的收斂保證:每次根據現有的價值函數進行策略改善,新的策略 π' 至少不會比原來的策略差,甚至可能更好。其次,這個方法可以自然地結合在「策略評估與改善迴圈」之中,成為 Policy Iteration 或 Value Iteration 等強化學習的核心演算法。最後,它的實作相對簡單,只要有現成的 V 值或 Q 值,就可以直接用來進行策略改善,無需額外的複雜模型。
________________________________________
⚠️ 六、改善過程中的注意事項
• 有些環境的轉移機率 P(s'|s,a) 無法取得 → 可用模擬環境近似學習(如 Monte Carlo 或 Temporal Difference 方法)
• 若使用近似函數(如神經網路)估計 Q 值,策略改善可能變得不穩定 → 需加入策略平滑機制(如 softmax、actor-critic)
________________________________________
🧩 七、思考挑戰與任務
1️⃣ 如果你已經有一套人生策略(例如讀研究所),你該怎麼評估是否值得改變?
你可以把目前的人生決策看成一套「策略 π」。接著試著去評估每個決策對未來的長期回報(如職涯發展、收入、身心健康、人脈累積等)。如果發現某些決策的長期報酬(Vπ(s))偏低,或有其他更高回報的選擇存在,就可以考慮改變行動策略(π')。這就像用 價值型改善法:先評估當前策略的價值,再透過改善步驟,選擇能帶來更高期望回報的行動方向。
________________________________________
2️⃣ 在面對選擇困難時,你是根據長期回報來改善行動嗎?
許多人在面對選擇時容易只考慮短期結果(立即獎勵 R),但真正穩健的決策應該類似強化學習的思考模式,考慮:
長期回報 = 立即獎勵 + 折扣後的未來價值
= R + γ * Vπ(s')
若能將目光放長遠,評估行動背後整體可能帶來的長期效益,才能做出更穩健的策略改善。例如,短期收入 vs. 長期職涯發展、眼前安逸 vs. 未來成長潛力,這些都是折扣因子 γ 概念的體現。
________________________________________
3️⃣ 表格範例:「迷宮策略改善步驟」
- ① 初始策略:π₀ 為隨機移動,因為還不知道最佳路徑,所以先隨便亂走。
- ② 策略評估:計算 Vπ₀(s),透過多次試走,估計每個狀態的平均回報。
- ③ 策略改善:產生新策略 π₁,針對各狀態,選擇能帶來較高 V 值的動作。
- ④ 再評估:計算 Vπ₁(s),用新策略模擬,更新各狀態的回報估計。
- ⑤ 重複迴圈:持續評估與改善,直到策略收斂,最終收斂到最佳路徑。________________________________________
👉 這正是 Policy Iteration(策略反覆改善) 的精神。_____________________________________
✅ 八、小結與啟示
• 策略改善是強化學習中讓 AI 變得「更聰明」的手段
• 透過比較每個行動的 Q 值,可以挑選出更有價值的策略
• 搭配策略評估,形成策略迭代法,可保證最終學到最優策略 π*
• 真實人生中,我們也可以反思:現行策略是否能長期帶來高價值?是否應該「改善」?