第三部《強化學習》51/100 策略梯度方法是什麼？🧭 直接學會怎麼做，而不是估計值！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/24 更新2025/09/24 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

51/100 第六週：📌 策略梯度與 Actor-Critic 架構

51.策略梯度方法是什麼？🧭 直接學會怎麼做，而不是估計值！

_______________________________________

🎯 單元導讀

在前幾章中，我們透過值函數（Value Function）學習如何「估計狀態或動作的好壞」，再從中選擇最好的動作。這就是 Q-Learning 和 DQN 的思維方式。

但其實還有另一條路：

不估價值，而是直接學會最好的行為策略！

這就是策略梯度方法（Policy Gradient Methods）的核心精神。它不再計算 Q 值，而是直接訓練一個策略函數 π(a|s)，讓 AI 學會在各種狀態下該做什麼。

________________________________________

🧠 一、什麼是策略梯度？

在策略梯度法中，我們不學 Q(s, a)，而是學一個「參數化的策略」：

π(a|s; θ) → 給定狀態 s，產生動作 a 的機率

我們的目標是找到一組參數 θ，使整體回報 J(θ) 最大化：

J(θ) = E[ ∑ r_t ] ← 最大化期望報酬

透過對 J(θ) 求梯度，就可以使用梯度上升法進行策略更新：

θ ← θ + α ∇θ J(θ)

________________________________________

🔁 二、與值函數方法的差異比較

值函數法（如 DQN）主要學習狀態-動作價值函數 Q(s,a) 或狀態價值 𝑉(𝑠)

，透過計算 Q 值選擇最大值動作，適合離散動作空間，學習效率高但容易出現震盪；而策略梯度法則直接學習策略分布 𝜋(𝑎∣𝑠)

，以機率方式抽樣動作，特別適合連續動作或需要隨機性的任務，雖學習較穩定但估計方差較大，收斂速度通常較慢。

________________________________________

🧪 三、策略梯度的核心公式（REINFORCE）

最基本的策略梯度法稱為 REINFORCE，使用下列公式更新：

∇θ J(θ) = E[ ∇θ log π(a|s; θ) * G_t ]

其中：

• π(a|s; θ)：策略函數，定義每個行動機率

• G_t：該動作後所得到的總報酬（從 t 時間點累積）

簡單說：

「強化那些帶來高回報的動作，弱化那些帶來低回報的動作。」

________________________________________

⏳ 四、策略梯度的例子：滑雪教練直覺法

想像你是滑雪教練，直接對學員說：

• 「你剛才這樣轉身很好，繼續這樣做！」

• 「剛才那樣滑錯了，下次不要再這樣。」

你不需要去估算 Q 值或勝率，只是根據結果直接調整行為策略。這正是策略梯度法的直覺本質！

________________________________________

🧠 五、常見改進策略梯度的技術

技術說明

Baseline 基準線減少方差，提高學習穩定性，例如使用 V(s) 當基準

Actor-Critic 架構同時學策略（Actor）與價值函數（Critic）

Entropy Bonus 增加探索，鼓勵策略保持一定隨機性

Trust Region Policy Optimization (TRPO) 限制每次更新幅度，提高穩定性

________________________________________

📸 六、應用場景實例

領域策略梯度應用方式

機器手臂控制在連續空間中學會動作（如抓取物體）

自動駕駛學會連續轉向與加速策略

金融投資策略決定在連續價格變動中何時買賣

自然語言生成用策略學習調整回覆品質（如對話生成）

________________________________________

🔍 七、策略梯度的注意事項與挑戰

• 方差大 → 須配合 baseline 或使用更穩定算法（如 Actor-Critic）

• 收斂慢 → 每次更新只能根據 sample-based gradient 改進

• 易受初期策略影響 → 初期探索策略設定需謹慎

________________________________________

🧩 八、問題與思考 💭

1️⃣ 策略梯度法為何適合連續動作空間？

👉

在連續動作空間中，動作數量是無窮多（例如方向角度、速度大小等），若用值函數法（如 DQN）必須離散化動作，導致精度受限、計算成本高；而策略梯度法直接學習一個參數化的機率分布（如高斯分布）來描述動作，能自然地處理連續範圍，且易於微調與探索。

2️⃣ 在你學習技能的過程中，有哪些是「不計分數」，而是直接根據做對或做錯進行調整的經驗？

👉

例如學習打籃球投籃、騎腳踏車、彈鋼琴等，當下沒有明確的分數，而是每次失誤（如投偏、跌倒、彈錯音）直接帶來感覺上的回饋，促使身體與大腦逐漸修正動作，這與策略梯度法的即時行為調整非常相似。

3️⃣ 如果使用策略梯度訓練一個下棋 AI，它是否能自動發現哪些棋步值得學習？為什麼？

👉

可以，因為策略梯度法會根據整局棋的勝負結果，將帶來高回報的行為（如優秀的佈局、有效的進攻、防守手法）自動賦予較高的策略權重，透過多次對局與回饋逐漸強化好的棋步，即便一開始不知道哪些行為好壞，也能透過試錯逐步發現有效策略。

________________________________________

✅ 九、小結與啟示

• 策略梯度法是「直接學習怎麼做」的強化學習方法

• 不用估計 Q 值，而是學習一個可微分的策略 π(a|s;θ)

• 適用於連續動作、隨機策略、策略導向任務

• 生活就像策略學習：每次試錯，都是在修正自己的行為分布！

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

391內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/24

第三部《強化學習》50/100 第五周小結與測驗：從 Q 表到 DQN 的進化 🧩 回顧學習曲線！

本單元總結從 Q 表到 DQN 的進化，涵蓋神經網路逼近 Q 值、Replay Buffer、Target Network、Double 與 Dueling DQN 改良，以及訓練技巧。透過 CartPole 實作展現從探索到穩定策略的學習曲線，並以測驗檢驗理解。

2025/09/24

第三部《強化學習》50/100 第五周小結與測驗：從 Q 表到 DQN 的進化 🧩 回顧學習曲線！

2025/09/24

第三部《強化學習》49/100 實作練習：CartPole with DQN 🎮 訓練不會倒的智慧體！

本單元以 CartPole 任務實作 DQN，涵蓋網路建立、Replay Buffer、ε-Greedy、Target Network 與 TD 誤差更新，並觀察獎勵曲線與收斂趨勢，體驗強化學習決策與平衡訓練過程。

2025/09/24

第三部《強化學習》49/100 實作練習：CartPole with DQN 🎮 訓練不會倒的智慧體！

2025/09/24

第三部《強化學習》48/100 DQN 訓練技巧與超參數調整 ⚙️ 學會讓模型更快收斂！

DQN 訓練仰賴調參與技巧，如 ε-Greedy、Replay Buffer、Huber Loss、梯度裁剪與目標網路更新，搭配穩定輸入處理與監控 reward、loss、Q 值分布，確保穩定收斂並提升策略品質。

2025/09/24

第三部《強化學習》48/100 DQN 訓練技巧與超參數調整 ⚙️ 學會讓模型更快收斂！

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15