第三部《強化學習》62/100 TRPO 架構與核心原理 🏛 保證策略改進的穩定性！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/25 更新2025/09/25 發佈閱讀 10 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

62/100 第七週：📌 高階強化學習演算法

62.TRPO 架構與核心原理 🏛 保證策略改進的穩定性！

________________________________________

🎯 本單元學習目標

• 掌握 TRPO 的完整系統架構

• 深入理解 TRPO 為何能「保證策略改進的穩定性」

• 建立對 TRPO 每一個元件之間運作關係的系統圖像

________________________________________

🏗 TRPO 的總體架構概覽

TRPO 是一種策略梯度強化學習演算法，具有以下關鍵組件：

┌─────────────┐

│ 現有策略 π_old │

└────┬────────┘

↓ 與環境互動產生樣本

┌──────────────┐

│ 收集軌跡 τ │ ← 多條 episode

└────┬─────────┘

↓

┌───────────────┐

│ Advantage Estimation │ ← 可用 GAE 方法

└────┬────────────┘

↓

┌───────────────┐

│ 目標函數建構 (Surrogate L) │

└────┬────────────┘

↓

┌────────────────────────────┐

│ 最大化 L 並限制 KL < δ │ ← Trust Region 條件

└────┬───────────────┘

↓

┌────────────────────┐

│ 共軛梯度法求解更新方向 │

└────┬──────────────┘

↓

┌────────────────┐

│ 線搜尋找合適步長 │ ← 保證 KL 不超限

└────┬────────────┘

↓

┌────────────────┐

│ 更新新策略 π_new │

└────────────────┘

這張流程圖完整呈現 TRPO（Trust Region Policy Optimization） 的運作機制：

先由舊策略 π_old 與環境互動收集軌跡，透過 Advantage Estimation（如 GAE）計算行為優劣，構建代理目標函數 L；接著在 KL 散度限制 < δ 的信任區間下，利用共軛梯度法尋找更新方向，再透過線搜尋控制步長，確保策略不會改變過快，最後得到更新後的 π_new。這樣能「小步快跑」，穩定提升策略效能而避免退步。𝐿

________________________________________

🧠 核心原理解析

1️⃣ Surrogate Loss（代理目標函數）

TRPO 不直接優化期望回報，而是構造一個代理目標：

L(theta) = E_{(s, a) ~ pi_old} [ (pi_theta(a|s) / pi_old(a|s)) * A^{pi_old}(s, a) ]

解釋：

L(theta)：這是 TRPO 構造出的「代理目標函數」，用來代替直接最大化的期望回報。

pi_theta(a|s)：當前新策略在狀態 s 下選擇動作 a 的機率。

pi_old(a|s)：舊策略在同樣狀態下選擇動作的機率。

A^{pi_old}(s, a)：舊策略下計算出的 Advantage，代表這個動作在該狀態下的相對好壞。

這個函數估計的是在新策略 π_θ 下，行動會對舊策略 π_old 的優勢提升多少。

________________________________________

2️⃣ KL 限制條件（信任區間）

subject to KL(pi_old || pi_theta) <= delta

這條件保證策略更新「不要跳太遠」，避免策略表現退化，是 TRPO 最核心的穩定保證。

________________________________________

3️⃣ 二階優化與共軛梯度法

為了尊重 KL 限制，TRPO 使用二階近似：

maximize g^T * x

subject to x^T * H * x <= delta

其中：

• g 是 Surrogate Loss 的梯度

• H 是 KL 散度的 Hessian 矩陣

這可以轉化為共軛梯度法（Conjugate Gradient Method）來高效計算方向。

________________________________________

4️⃣ 線性搜尋（Line Search）

即便方向對了，還要測試不同步長 α，確保：

• KL 不超過 δ

• Surrogate Loss 不降低

才會接受該更新，這是「保守式改善策略」的關鍵。

________________________________________

🧪 TRPO 的核心優勢

特性說明

✅ 策略穩定性保證使用 KL 約束來防止策略崩潰

✅ 改進一定不會變差理論上保證策略性能不會退步

✅ 適合連續動作空間尤其在機器人控制、MuJoCo 等領域廣泛應用

________________________________________

⚠ TRPO 的潛在挑戰

• 🧮 實作複雜，需要計算 KL 散度 Hessian（通常近似）

• 🧠 共軛梯度法與線性搜尋步驟成本較高

• 🔁 每次更新只用一次資料 → 資料效率不佳（vs. PPO）

________________________________________

📚 關鍵公式回顧

📌 代理損失函數：

L(theta) = E_{(s, a) ~ pi_old} [ r(theta) * A^{pi_old}(s, a) ]

where r(theta) = pi_theta(a|s) / pi_old(a|s)

📌 KL 約束（限制策略變動）：

subject to KL(pi_old || pi_theta) <= delta

完整理解：

我們希望讓新的策略 theta 能最大化代理損失 L(theta)（代表提升 Advantage 好的行動機率）。

但同時透過 KL 限制，控制新舊策略分布間的變化量不超過 delta，避免更新幅度過大、導致學習不穩定。

這組成了 TRPO 核心邏輯：

「穩定提升表現、又避免劇烈變化」。

________________________________________

✅ 單元小結

元素說明

Surrogate Loss 避免直接最大化複雜的期望回報，轉而估計 Advantage 的改善程度

KL 限制為了避免策略退化，加入「跳太遠」的懲罰

共軛梯度法解決二次限制問題，用來計算最有效的策略更新方向

線性搜尋找出剛好不違反 KL 限制的步長，確保安全更新

結果在理論與實務上都具備「策略穩定改善」保證

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

388內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/25

第三部《強化學習》61/100 什麼是 Trust Region Policy Optimization（TRPO）🧠

TRPO 透過限制新舊策略間的 KL 散度，在「信任區間」內小步更新，避免性能退步並提升穩定性。適用於高維連續控制如機器人任務，但實作複雜。理念可類比投資、健身與職涯轉換的漸進式進步。

2025/09/25

第三部《強化學習》61/100 什麼是 Trust Region Policy Optimization（TRPO）🧠

2025/09/25

第三部《強化學習》60/100 第六周小結與測驗：策略學習的力量 🔁 優雅又高效的決策者！

本章統整策略梯度核心：從 REINFORCE 到 Actor-Critic，再到 A2C 與熵正則化，展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作，學習者能理解策略學習在連續與複雜環境中的優勢，為進階演算法奠基。

2025/09/25

第三部《強化學習》60/100 第六周小結與測驗：策略學習的力量 🔁 優雅又高效的決策者！

2025/09/25

第三部《強化學習》59/100 實作練習：LunarLander with Actor-Critic 🌙 火箭著陸不是

本單元以 Actor-Critic 演算法實作 LunarLander-v2，透過 Actor 輸出策略、Critic 評估狀態價值，利用 TD 誤差更新雙網路，逐步學會安全降落。並提供調參與探索建議，展現強化學習從互動中習得決策的核心精神。

2025/09/25

第三部《強化學習》59/100 實作練習：LunarLander with Actor-Critic 🌙 火箭著陸不是

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

#懶人料理#食譜#健康甜點

2025/10/15

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19