第三部《強化學習》55/100 優勢函數（Advantage Function）💡 分析比預期好多少！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/25 更新2025/09/25 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

55/100 第六週：📌 策略梯度與 Actor-Critic 架構

55.優勢函數（Advantage Function）💡 分析比預期好多少！

_______________________________________

🎯 單元導讀

當我們進行策略梯度更新時，有一個問題常常困擾我們：

當一個動作得到正回報，它是真的「好」，還是「剛好符合預期」？

這時候，優勢函數 Advantage Function 就能幫我們解開這個疑惑。

它的核心思想是：

「動作的好壞不是絕對的，而是相對於預期！」

👉 如果做出某個動作後的結果比預期更好，那這就是一個「有優勢的」行為。

________________________________________

🧠 一、什麼是 Advantage Function？

優勢函數定義為：

A(s, a) = Q(s, a) - V(s)

項目意義

Q(s, a) 在狀態 s 下採取動作 a 後的總期望回報

V(s) 在狀態 s 下平均所有動作的期望回報

A(s, a) 此動作 a 比平均期望回報多多少

換句話說，A(s, a) 表示這個動作比預期好多少。

________________________________________

🔁 二、為什麼要使用 Advantage？

在 REINFORCE 中，我們是這樣更新策略：

θ ← θ + α * ∇θ log π(a|s) * G_t

但 G_t 的方差很大，會導致學習不穩。

引入 Advantage 後，我們可以改為：

θ ← θ + α * ∇θ log π(a|s) * A_t

這樣做有三大好處：

1. ✅ 減少高方差（因為基準 V(s) 被扣掉）

2. ✅ 更聚焦在「比預期更好」的行為

3. ✅ 改善策略學習的穩定性與速度

________________________________________

📈 三、Advantage 的估算方式

常見有兩種：

方法一：從 Critic 網路估算

python

A(s, a) = Q(s, a) - V(s)

若 Critic 同時輸出 Q 與 V，就可以直接計算。

方法二：使用 TD 誤差估算

python

A(s, a) ≈ r + γ * V(s') - V(s)

這是最常用的估算方式之一，因為 V(s) 通常比 Q(s, a) 更容易學。

________________________________________

🧪 四、Advantage 的應用場景

場景說明

A2C、A3C 演算法使用 Advantage 代替 G_t，減少方差

PPO（Clip Loss）使用 Advantage 作為策略更新的依據，穩定學習

Actor-Critic 結構評估動作是否「優於平均」，協助 Actor 調整策略

________________________________________

📌 五、簡單數學例子說明

假設在某狀態 s：

• 動作 a1：Q(s, a1) = 8

• 動作 a2：Q(s, a2) = 5

• 平均 V(s) = 6.5

那麼：

• A(s, a1) = 8 - 6.5 = +1.5

• A(s, a2) = 5 - 6.5 = -1.5

👉 Actor 就知道該增加 a1 機率，降低 a2 機率

________________________________________

🔍 六、優勢函數與學習策略的關係

問題 Advantage 幫助

哪些行為是值得重複的？看 A(s,a) 是否 > 0

哪些行為應該被減少？看 A(s,a) 是否 < 0

學習是否容易收斂？方差降低代表策略更新更穩定

策略是否太保守或激進？ A(s,a) 分布幫助評估策略偏移程度

________________________________________

🧩 七、問題與思考 💭

1️⃣ 優勢函數與 TD 誤差有什麼關聯與差異？

👉

優勢函數 (Advantage Function) 定義為：

A(s, a) = Q(s, a) - V(s)

它描述某個動作相對於平均策略的好壞。而 TD 誤差計算為：

TD誤差 = r + γV(s') - V(s)

當使用狀態價值函數 V(s) 做 Critic 時，TD 誤差其實就是對 Advantage 的一種近似（但未使用真實的 Q(s,a)），因此在 Actor-Critic 中，經常直接用 TD 誤差當作 Advantage 來更新 Actor。差異在於：TD 誤差只使用一步的回饋，Advantage 是完整的期望價值差異。

2️⃣ 若 Actor 得到錯誤的 A(s,a) 估計，會造成什麼後果？

👉

若 Advantage 估計錯誤，Actor 可能會「強化錯誤的動作」，例如誤以為某動作優於平均而增加它的機率，實際上可能是低效行為；長期下來會偏離真正高效的策略，甚至陷入次優策略或局部最優，浪費大量訓練資源修正偏差，收斂速度降低甚至導致學壞。

3️⃣ 在現實生活中，有沒有「你以為做得不錯，但其實只是剛好」的例子？

👉

例如：

考試猜題猜對一題（其實沒學會，但成績剛好好看）

生意初期碰巧趕上短暫市場熱潮（但商業模式本身不穩定）

面試時隨口回答剛好符合主管期待（但實力尚未穩固）

這些情況就像錯誤高估了自己的 Advantage，短期看似不錯，但實際並未建立穩定長期優勢，若不調整認知，後續可能出現嚴重問題。

_______________________________________

✅ 八、小結與啟示

• Advantage Function 是幫助策略學習的核心概念之一

• 它幫我們比較：「這個動作比平均好多少？」

• 可減少方差、穩定學習、讓 Actor 更新更有方向感

• 和 TD 誤差搭配使用，可建立穩定、即時回饋的學習管道

• 就像生活中，真正的進步來自於**「高於平均」的持續累積！**

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

459內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/25

第三部《強化學習》54/100 基礎 Actor-Critic 架構 🧑‍🎤「演員」做決策、「評論員」評價表現！

Actor-Critic 結合策略學習與價值估計：Actor 負責決策，Critic 評估行動並提供即時回饋，透過 Advantage 或 TD 誤差降低方差，加快收斂。常見變體如 A2C、A3C、PPO、DDPG 等，廣泛應用於自駕、投資與遊戲。

2025/09/25

第三部《強化學習》54/100 基礎 Actor-Critic 架構 🧑‍🎤「演員」做決策、「評論員」評價表現！

2025/09/25

第三部《強化學習》53/100 策略梯度與 Q-Learning 比較 ⚖ 行為學習與價值學習的選擇！

Q-Learning 透過學習行動價值（Q 值）來選擇最優行動，收斂快，適合離散任務；策略梯度則直接學習行為策略，適合連續控制與隨機性需求，但方差高、效率較低。兩者各有優缺點，實務上常結合成 Actor-Critic 架構，以兼顧效率與穩定性。

2025/09/25

第三部《強化學習》53/100 策略梯度與 Q-Learning 比較 ⚖ 行為學習與價值學習的選擇！

2025/09/24

第三部《強化學習》52/100 REINFORCE 演算法 ✍ 使用樣本策略估計梯度方向！

REINFORCE 是最基本的策略梯度法，透過整集 episode 回報更新策略，強化高回報動作。優點是簡單直觀、適合連續動作；缺點是方差大、收斂慢。加入 baseline 可降低方差，奠定 Actor-Critic 方法基礎。

2025/09/24

第三部《強化學習》52/100 REINFORCE 演算法 ✍ 使用樣本策略估計梯度方向！

看更多

你可能也想看

Emma 的意識界。

雙 11 你想買啥? 讓我們來清空購物車順便賺零用金吧😁蝦皮分潤計畫最佳進場時機

搬家不只添購必需品，更能透過蝦皮分潤計畫賺取零用金！本文分享近期搬家時添購的各種實用好物，包含多功能工作桌、電競椅、氣炸烤箱、收納神器等，並詳述如何透過蝦皮雙 11 活動聰明購物、善用優惠，同時利用分潤機制將敗家行為轉化為被動收入，推薦給想聰明消費又想賺額外收入的你！

#蝦皮#廚房#烤箱

2025/11/05

Emma 的意識界。

雙 11 你想買啥? 讓我們來清空購物車順便賺零用金吧😁蝦皮分潤計畫最佳進場時機

#蝦皮#廚房#烤箱

2025/11/05

Have a nice day

{好物}蝦皮購物😺貓零食開箱🐟雙11購物攻略🌟0元免運🌟蝦皮分潤=收入🌹

貓奴每月進貢的時間又來啦! 身為專業貢品官，我從蝦皮搜尋各種零食，只為取悅家中三位貓主子！結果究竟會是龍心大悅，亦或是冷眼相待，就讓我們繼續看下去~

#方格新手#蝦皮購物#蝦皮

2025/11/05

Have a nice day

{好物}蝦皮購物😺貓零食開箱🐟雙11購物攻略🌟0元免運🌟蝦皮分潤=收入🌹

#方格新手#蝦皮購物#蝦皮

2025/11/05

腦幽思潮

商機：優化演算法並開始交辦給人工智慧：關於飲食。

反省就是重寫自己的演算法吧？假設我就是人工智慧，或心智的可以被看作爲人工智慧的編輯器，那我的程式碼是什麼樣的？從懵懂無知到一無所知，從自以為是到自我消逝，心智只是執行它的內容，我也需要不斷優化。最好的優化就是簡化。最能創造財富的演算法就是關於如何除錯與減少任何風險。

#人工智慧#演算法#料理

2024/07/27

腦幽思潮

商機：優化演算法並開始交辦給人工智慧：關於飲食。

#人工智慧#演算法#料理

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 92

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 92

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 84

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 83

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 xxx 提到，既然提到訓練，就表示要有一套衡量基準供大家遵守，有鑑於此，以下繼續介紹幾類衡量方式： MCC：首先介紹 True (T) Positive (

#AI#ai#PromptEngineering

2024/07/11

Learn AI 不 BI

AI說書 - 從0開始 - 83

#AI#ai#PromptEngineering

2024/07/11

Mauro's沙龍

提升思考框架品質－《超越AI的思考架構》

《超越AI的思考框架》聚焦決策與組織心智，強調思考品質提升。探討因果、反事實、限制等概念，旨在改進決策。內容基礎，對新手入門有助。提倡多元思維，拓展決策框架。雖深度不足，但與管理學理論相輔相成。

2024/04/21

2024/04/21

瞭解人生決策過程中的關鍵能力，包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力，同時改變思維模式和成功經營模式，挑戰自我，在市場競逐中找到關鍵的能力。

2024/03/11

2024/03/11

解決電腦上遇到的問題、證明正確性、探討效率並且很著重溝通，說服別人你做的事是正確且有效率的。內容：計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。

2024/01/23

程式貓咪

1. 演算法與運算

2024/01/23

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News