第三部《強化學習》53/100 策略梯度與 Q-Learning 比較 ⚖ 行為學習與價值學習的選擇!

更新 發佈閱讀 8 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

53/100 第六週:📌 策略梯度與 Actor-Critic 架構

53.策略梯度與 Q-Learning 比較 ⚖ 行為學習與價值學習的選擇!

_______________________________________

🎯 單元導讀

在強化學習的世界中,有兩條主要的學習道路:

1. Q-Learning:學習「每個行動的價值」,再從中選擇最好的

2. 策略梯度(Policy Gradient):直接學習「該怎麼做」,不再依賴 Q 值估計

這兩者就像「用成績預測升學機率」vs.「直接學會怎麼考高分」。

本單元將從概念、應用、優缺點、實作等層面,深入比較這兩種強化學習策略。

________________________________________

🧠 一、核心概念差異表

Q-Learning 屬於值函數學習法,透過學習 𝑄(𝑠,𝑎) 來間接導出最優策略,動作選擇時取 Q 值最大的行動(argmax),適合離散動作空間與明確決策任務,更新上依據 TD 誤差,學習效率高但可能出現震盪;而策略梯度法則是直接學習策略分布

𝜋(𝑎∣𝑠),透過抽樣選擇動作,特別適合連續動作或需隨機性的場景,更新時以回報加權做梯度上升,學習穩定但易受高方差影響,收斂速度較慢。

________________________________________

🧪 二、簡易範例對照:CartPole 任務

Q-Learning

  • 屬於 Off-policy TD (Temporal Difference) 控制方法
  • 在訓練過程中,每一步都會估算 Q(s, a)。
  • 選擇動作時,通常使用 ε-greedy:大多選最大 Q 值動作,有時隨機探索。
  • 更新 Q 值的方式是:用當前獎勵 + 下一狀態的最大 Q 值,來修正原本的 Q 值。
  • 可以用 Q 表神經網路(DQN) 近似。
  • 優點:在條件滿足時能收斂到最優策略。

REINFORCE

  • 屬於 蒙地卡羅策略梯度方法
  • 每回合完整跑完一個 episode,計算總回報。
  • 根據該回報來強化「當時動作」的機率,直接更新策略。
  • 直接學習 策略 π(a|s;θ),不需要建立 Q 表。
  • 優點:簡單直觀,能處理連續動作空間。
  • 缺點:高方差,需要大量樣本才能穩定。

________________________________________

📈 三、學習穩定性與效率比較

在學習穩定性與效率上,Q-Learning 透過 TD 誤差可即時更新,具有較快的收斂速度與中等偏差,由於每步都有新估計值可修正,適合持續在線學習;而 Policy Gradient 必須等整個 episode 結束後才能計算完整回報進行更新,收斂速度相對較慢,且回報 𝐺𝑡帶來高方差問題,學習過程穩定但效率較低,偏重在方差控制而非偏差修正。

________________________________________

🔍 四、何時選擇哪一種?

✅ 適合 Q-Learning 的情境

離散動作空間,如:上下左右、買賣停

環境明確、能穩定估算價值

想用 DQN、Double DQN、Dueling 架構等進行值逼近

✅ 適合策略梯度的情境

連續動作空間(如角度控制、速度調節)

策略須保持隨機性(如對話生成、博弈任務)

目標是學會「怎麼做」,而不是「做了有多好」

________________________________________

🧠 五、從人類學習角度理解

Q-Learning

  • 就像 考試後看分數:每次做題、考完試,先看分數(Q 值)好不好。
  • 之後根據這些「分數」來調整未來的讀書方向(例如哪一科要加強)。
  • 強調「結果 → 修正未來選擇」。

Policy Gradient(策略梯度)

  • 就像 每次練習都在調整表現:不去在意分數,而是透過一次次練習的體驗,讓表現更自然更好。
  • 每次練習的經驗,會直接影響下次做同樣事情的方式。
  • 強調「過程中的表現 → 直接調整行為」

________________________________________

📌 六、能否結合?(答案是:可以!)

最常見的就是:

✅ Actor-Critic 方法

Actor:學策略 π(a|s)

Critic:學值函數 V(s) 或 Q(s, a) → 提供學習指導給 Actor

👉 這就是策略梯度與價值估計的完美融合,也是後續單元的主軸!

________________________________________

🧩 七、問題與思考 💭

1️⃣ 如果你要設計一個智慧機器人,在連續空間中平衡飲料杯,該選用哪種方法?為什麼?

👉

應該選用策略梯度法。因為平衡飲料杯涉及連續控制(如手腕角度、力量、速度的微調),動作空間為連續值。策略梯度法可以直接學習參數化的連續策略(如高斯分布),不需離散化動作,能更精細地學習平衡過程中的微小變化,控制效果自然流暢。

________________________________________

2️⃣ 為什麼策略梯度能容許「機率性策略」,而 Q-Learning 通常偏向「確定性行為」?

👉

策略梯度直接學習整個動作機率分布 π(a∣s),允許自然地存在機率性策略,特別適合在環境不確定性大或需要多樣性探索的情境中使用;而 Q-Learning 是透過估算每個動作的 Q 值再取 argmax,天生導向確定性行動(選擇目前看起來最好的動作),雖然可以搭配 ε-Greedy 增加探索,但核心仍以確定性為主。

________________________________________

3️⃣ 假如某環境中 reward 稀少但策略需要非常準確,會建議使用哪一種?還有什麼輔助技巧?

👉

這種情境下可以優先考慮策略梯度法,因為它在稀疏回報下仍能透過整體回報學習,適合處理稀疏獎勵與高精度需求。但因為方差可能較大,訓練上建議搭配:

baseline(如 value function)降低方差

advantage function 幫助分辨哪些行動特別好

reward shaping(適當調整獎勵設計)讓學習信號更具引導性

模擬訓練(simulation pre-training) 增加樣本效率

curriculum learning(課程式訓練) 由簡單到困難逐步學習

______________________________________

✅ 八、小結與啟示

Q-Learning 是價值導向的估計學習,效率高,但可能偏差

策略梯度是直接學行為策略,穩定但方差高

選擇哪種方法,取決於任務型態、動作空間特性、策略目標

實務中經常將兩者結合 → Actor-Critic 架構就是代表!



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/24
REINFORCE 是最基本的策略梯度法,透過整集 episode 回報更新策略,強化高回報動作。優點是簡單直觀、適合連續動作;缺點是方差大、收斂慢。加入 baseline 可降低方差,奠定 Actor-Critic 方法基礎。
2025/09/24
REINFORCE 是最基本的策略梯度法,透過整集 episode 回報更新策略,強化高回報動作。優點是簡單直觀、適合連續動作;缺點是方差大、收斂慢。加入 baseline 可降低方差,奠定 Actor-Critic 方法基礎。
2025/09/24
策略梯度方法直接學習行為策略 π(a|s;θ),不再估計 Q 值,適合連續動作與需隨機性的任務。透過 REINFORCE 與基準線、Actor-Critic 等改進,能減少方差、提升穩定性。應用於機器手臂、自駕車、金融與語言生成,強調試錯中直接修正行為分布。
2025/09/24
策略梯度方法直接學習行為策略 π(a|s;θ),不再估計 Q 值,適合連續動作與需隨機性的任務。透過 REINFORCE 與基準線、Actor-Critic 等改進,能減少方差、提升穩定性。應用於機器手臂、自駕車、金融與語言生成,強調試錯中直接修正行為分布。
2025/09/24
本單元總結從 Q 表到 DQN 的進化,涵蓋神經網路逼近 Q 值、Replay Buffer、Target Network、Double 與 Dueling DQN 改良,以及訓練技巧。透過 CartPole 實作展現從探索到穩定策略的學習曲線,並以測驗檢驗理解。
2025/09/24
本單元總結從 Q 表到 DQN 的進化,涵蓋神經網路逼近 Q 值、Replay Buffer、Target Network、Double 與 Dueling DQN 改良,以及訓練技巧。透過 CartPole 實作展現從探索到穩定策略的學習曲線,並以測驗檢驗理解。
看更多
你可能也想看
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
★學習能力、策略與表徵 【知覺集中】(反義詞-去集中化) 思維方式尚未成熟,導致思維方式不合邏輯,只憑知覺所及,集中注意於事物的單一層面...
Thumbnail
★學習能力、策略與表徵 【知覺集中】(反義詞-去集中化) 思維方式尚未成熟,導致思維方式不合邏輯,只憑知覺所及,集中注意於事物的單一層面...
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News