第二部：《深度學習》86/100 📌策略梯度與 Actor-Critic 🧠 分工合作穩定訓練！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/22 更新2025/09/22 發佈閱讀 11 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

86/100 第九週：📌 深度強化學習（Deep Reinforcement Learning）🎮

86.策略梯度與 Actor-Critic 🧠 分工合作穩定訓練！

_____________________________________

🎯 單元導讀：

強化學習中，除了 Q-Learning 類的值函數法，還有另一大支派是：策略為主（Policy-based）學習法。

尤其是將「值函數估計」與「策略更新」結合的 Actor-Critic 結構，成為當前深度強化學習中的主流方法之一。

本課重點介紹：

✅ 策略梯度（Policy Gradient）原理

✅ Actor-Critic 架構與學習流程

✅ 優點與挑戰

✅ 常見演算法（A2C、A3C、PPO）

________________________________________

🧠 一、策略梯度法是什麼？

➤ 定義：

策略梯度法（Policy Gradient）是一種強化學習演算法，直接學習一個參數化的策略，也就是一個可以輸出「每個動作機率」的模型，記為： πθ(a∣s)，

意思是在某個狀態 𝑠下，採取動作 𝑎的機率是由參數 𝜃所控制的。

透過最大化期望總回報：

J(θ) = Eπθ [ ∑tRt ]

🧠 定義說明：

這是一個**期望總報酬（Expected Return）**的表達式，意思是：

當代理人依照參數為 𝜃的策略

𝜋𝜃(𝑎|𝑠)採取行動後，

它在整個一段互動過程中（episode）所能累積的所有報酬總和的期望值。

也可以理解為：

👉「我這個策略到底有多好？」

👉「如果照這個策略執行，平均能拿到多少獎勵？」

使用梯度上升進行參數更新：

θ←θ+α⋅∇ θJ(θ)

這是一個典型的**梯度上升（Gradient Ascent）**過程：我們的目標是讓策略越來越好，也就是讓總報酬 𝐽(𝜃)越來越大。為了達成這個目標，我們會計算出一個「讓績效變更好的方向」（也就是對 𝐽(𝜃)求梯度），再乘上一個學習率，朝這個方向微調策略的參數 𝜃。經過多次這樣的更新後，參數會逐漸收斂到讓報酬最大的值，整體策略也就學會了更有效的行動方式。這就是策略梯度法的學習核心。

✅ 一句話解釋：

我們要讓策略的參數 𝜃往「讓報酬變大的方向」調整，每次更新一小步，這個方向就是梯度。

📌 稱為 REINFORCE 演算法（Williams, 1992）

________________________________________

🧭 二、策略梯度的特性

策略梯度法具備一些獨特的優點，使它在某些情境下比 Q-Learning 更具優勢。首先，它能直接處理連續動作空間，非常適合像機器人控制這類精細操作任務。其次，它能學會非確定性策略（Stochastic Policy），讓代理人在同一狀態下保留行動的隨機性，有助於探索並降低陷入局部最優的風險。然而，它也有明顯缺點：學習過程容易不穩定，因為回報本身具有高度變異，導致梯度估計波動大。此外，策略梯度法對資料需求量大，必須累積大量互動樣本才能有效學習，樣本效率相對較低。因此，雖然它靈活、表現力強，但實作上仍需搭配改良技術（如 baseline 或 actor-critic）來提升穩定性與效率。

________________________________________

🤖 三、Actor-Critic 架構登場：分工合作的穩定策略學習法

➤ 核心概念：

• Actor（演員）：負責根據策略 π(a∣s)決定行動

• Critic（評論家）：估計狀態或狀態-行動的價值函數（V 或 Q）

🎯 兩者合作：

• Actor 負責學「該怎麼做」

• Critic 提供「這樣做好不好」的評價信號

________________________________________

🧮 策略更新公式（使用 Advantage）：

∇θJ(θ)=E[∇θlog⁡πθ(at∣st)⋅A(st,at)]

這條公式是策略梯度法中的核心更新規則，意思是：我們透過計算策略在某狀態下選擇某動作的機率的梯度（log π），再乘上這個動作的優勢值（A），來決定參數的調整方向。優勢值代表這個動作相對於平均表現好多少，因此這個公式會強化「表現比平均更好的行為」，抑制較差的行為，讓整體策略朝著獲得更高回報的方向學習。這種方法能提升學習效率並降低梯度估計的不穩定性。

其中優勢函數 A(s,a)=Q(s,a)−V(s)

代表該動作相對於平均水準的好壞程度，若為正值則強化該行為，為負則抑制。這種方法能有效降低學習過程中的方差，聚焦在「強化比平均表現更好的動作」，使策略學習更穩定、更具效率，是多種現代強化學習演算法（如 A2C、PPO）的核心更新機制。

→ 表示這個動作比平均水準好多少

________________________________________

🧱 四、Actor-Critic 架構總覽

環境

↑

← [Reward]

↑

Critic (值函數 V)

↑

[Actor] → 動作 a_t

↑

狀態 s_t

這張圖描述的是 Actor-Critic 演算法的資料流過程。系統從環境接收到當前的狀態 st，接著由 Actor（策略網路）根據這個狀態產生一個動作 at，送回給環境執行。環境執行後會回傳一個即時的獎勵（Reward），以及下一個狀態，同時交給 Critic（價值網路）來估計當前狀態的「好壞」——也就是值函數 V(st)。Critic 根據這個估計結果提供給 Actor 一個方向性的學習信號（例如優勢值 Advantage），幫助 Actor 調整策略，使它未來在相似情況下能做出更好的決策。整體過程結合了策略學習（Actor）與價值評估（Critic），實現更穩定且有效的強化學習。

________________________________________

🧪 五、常見 Actor-Critic 擴充演算法

名稱特性

A2C 同步版 Actor-Critic，穩定收斂好上手

A3C 多執行緒非同步訓練，加快速度

PPO 穩健策略優化，限制更新幅度 → 廣泛應用於 OpenAI

DDPG / SAC Actor-Critic 延伸至連續動作空間

________________________________________

🧠 六、Actor-Critic 的優勢與挑戰

優勢挑戰

✅ 同時學策略與值，更新效率高 ❗ Critic 的誤差會影響 Actor 的訓練

✅ 可應用於連續 / 複雜行為學習 ❗ 對超參數（learning rate、γ）敏感

✅ 可以使用 TD 誤差穩定訓練 ❗ 易產生高變異策略學習不穩

________________________________________

📚 七、小結與啟示：

✅ 策略梯度法直接最大化期望回報，是強化學習的一大主流

✅ Actor-Critic 分工：Actor 學策略，Critic 給評價

✅ 結合 TD 誤差、優勢函數、baseline 後訓練更穩定

✅ PPO 等衍生方法已被廣泛應用於多種控制與決策場景

________________________________________

💬 問題挑戰與思考：

1️⃣ 為什麼使用 Advantage 而非直接用 reward 來更新策略？

使用 Advantage 的目的是為了降低梯度估計的方差，讓學習更穩定。

如果直接使用 reward（或回報 𝑅𝑡），會因為獎勵高低本身波動很大，導致策略更新方向不穩，甚至學習錯誤。

Advantage 函數 𝐴(𝑠,𝑎)=𝑄(𝑠,𝑎)−𝑉(𝑠)

表示「這個動作相對於平均水準的好壞」，只強化「比平均表現更好」的行為，有效去除掉 baseline 的影響，提升學習穩定性與效率。

2️⃣ 如果 Critic 訓練不穩定，對 Actor 有什麼影響？要怎麼解決？

Critic 是用來幫助 Actor 評估行為好壞的，如果它學得不準，會導致 Advantage 或值函數估計錯誤，

進一步讓 Actor 得到錯誤的方向指引，學到「錯誤的策略」，甚至完全崩壞。

✅ 解決方式包括：

使用目標網路（Target Network）：像 DQN 一樣讓 Critic 更穩定

限制 Critic 的更新速度（例如使用 soft update）

加入權重正則化或使用更穩定的 loss 函數

結合經驗回放（如 in PPO、TD3 中的技巧）

或使用 Advantage Normalization 平滑學習信號

3️⃣ 與 Q-learning 相比，Actor-Critic 最大的應用優勢是什麼？

Q-learning 是值為主（value-based）的方法，主要處理離散動作空間，難以應用於連續控制問題。

而 Actor-Critic 結合了策略學習與價值評估的優點，能直接輸出連續動作（透過 Actor）並同時有 Critic 做指導，因此特別適合應用在像機器人控制、自駕車、金融投資等需要高精度輸出的場景。

此外，Actor-Critic 支援隨機策略學習，有助於更靈活的行為探索，能避免卡在局部最優。

📌 總結一句話：

使用 Advantage 是為了穩定學習，Critic 的品質會直接影響 Actor 的策略表現，而 Actor-Critic 相對 Q-learning 最大的優勢在於能處理連續、複雜的決策問題，是許多現代強化學習應用的基礎架構。

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

17會員

511內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/22

第二部：《深度學習》85/100 📌探索 vs 利用🔄 試錯與策略平衡的藝術！

探索與利用是強化學習核心矛盾：探索帶來新知，利用獲取即時回報。常見方法如 ε-greedy、Softmax、UCB、Thompson Sampling 等，需依訓練階段動態調整。過度探索會浪費資源，過度利用則陷局部最優，唯有平衡才能確保長期最優策略。

2025/09/22

第二部：《深度學習》85/100 📌探索 vs 利用🔄 試錯與策略平衡的藝術！

2025/09/22

第二部：《深度學習》84/100 📌Deep Q-Network (DQN) 🎲 結合深度學習的強化學習典範！

DQN 結合 Q-Learning 與深度神經網路，能處理高維輸入並應用於遊戲。透過 CNN、Replay Buffer 與 Target Network 提升穩定性，但仍有過估計與探索不足問題，需靠 Double DQN 等改進。

2025/09/22

第二部：《深度學習》84/100 📌Deep Q-Network (DQN) 🎲 結合深度學習的強化學習典範！

2025/09/22

第二部：《深度學習》83/100 📌獎勵函數與策略學習 💰 最大化總回報是最終目標！

Q-Learning 透過更新 Q 值學習每一步最佳動作，以最大化長期回報；其 off-policy 特性允許探索與學習並行。策略網路則直接近似動作分布，適合連續空間。DQN 將神經網路引入 Q-Learning，能處理圖像等高維輸入，並透過固定目標網路與經驗回放提升穩定性。

2025/09/22

第二部：《深度學習》83/100 📌獎勵函數與策略學習 💰 最大化總回報是最終目標！

看更多

你可能也想看

金日子的沙龍

【假日錢進系列 Vol.3】雙十一補貨攻略：靠小步驟打造無壓力被動收入

探討雙十一購物節如何從血拼轉為理性補貨，並介紹蝦皮分潤計畫，教你如何透過日常購物累積小額被動收入。文章分享個人購物清單（貓罐頭、Snoopy口罩、康寧杯），並提供詳細的分潤計畫申請步驟與優勢，強調此為零壓力、零門檻的理財新方式。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

金日子的沙龍

【假日錢進系列 Vol.3】雙十一補貨攻略：靠小步驟打造無壓力被動收入

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

阿展米糕的沙龍

不出門、不備貨、不上班也能賺？我用蝦皮分潤計畫開啟小副業

厭倦了單純消費？這篇文章帶你認識「蝦皮分潤計畫」，將你的購物習慣轉化為額外收入。從德州撲克牌組、實用晒衣架的購物經驗，到雙11購物清單與省錢技巧，作者分享如何利用分潤機制，讓每一筆花費都可能變現，實現「邊買邊賺」的雙贏局面。同時提供註冊指南與網賺優勢，邀請你也一同加入。

#方格人氣王#分享#開箱

2025/11/05

阿展米糕的沙龍

不出門、不備貨、不上班也能賺？我用蝦皮分潤計畫開啟小副業

#方格人氣王#分享#開箱

2025/11/05

Learn AI 不 BI

AI說書 - 從0開始 - 92

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 92

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 84

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 83

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 xxx 提到，既然提到訓練，就表示要有一套衡量基準供大家遵守，有鑑於此，以下繼續介紹幾類衡量方式： MCC：首先介紹 True (T) Positive (

#AI#ai#PromptEngineering

2024/07/11

Learn AI 不 BI

AI說書 - 從0開始 - 83

#AI#ai#PromptEngineering

2024/07/11

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 82

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 79

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。如 AI說書 - 從0開始 - 78 所述，經過 AI說書 - 從0開始 - 74 到目前為止的實驗，應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 79

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 69

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 52

#AI#ai#PromptEngineering

2024/06/26

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News