第三部《強化學習》62/100 TRPO 架構與核心原理 🏛 保證策略改進的穩定性!

更新 發佈閱讀 10 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

62/100 第七週:📌 高階強化學習演算法

62.TRPO 架構與核心原理 🏛 保證策略改進的穩定性!

________________________________________

🎯 本單元學習目標

掌握 TRPO 的完整系統架構

深入理解 TRPO 為何能「保證策略改進的穩定性」

建立對 TRPO 每一個元件之間運作關係的系統圖像

________________________________________

🏗 TRPO 的總體架構概覽

TRPO 是一種策略梯度強化學習演算法,具有以下關鍵組件:

┌─────────────┐

│ 現有策略 π_old │

└────┬────────┘

↓ 與環境互動產生樣本

┌──────────────┐

│ 收集軌跡 τ │ ← 多條 episode

└────┬─────────┘

┌───────────────┐

│ Advantage Estimation │ ← 可用 GAE 方法

└────┬────────────┘

┌───────────────┐

│ 目標函數建構 (Surrogate L) │

└────┬────────────┘

┌────────────────────────────┐

│ 最大化 L 並限制 KL < δ │ ← Trust Region 條件

└────┬───────────────┘

┌────────────────────┐

│ 共軛梯度法求解更新方向 │

└────┬──────────────┘

┌────────────────┐

│ 線搜尋找合適步長 │ ← 保證 KL 不超限

└────┬────────────┘

┌────────────────┐

│ 更新新策略 π_new │

└────────────────┘

這張流程圖完整呈現 TRPO(Trust Region Policy Optimization) 的運作機制:

先由舊策略 π_old 與環境互動收集軌跡,透過 Advantage Estimation(如 GAE)計算行為優劣,構建代理目標函數 L;接著在 KL 散度限制 < δ 的信任區間下,利用共軛梯度法尋找更新方向,再透過線搜尋控制步長,確保策略不會改變過快,最後得到更新後的 π_new。這樣能「小步快跑」,穩定提升策略效能而避免退步。𝐿

________________________________________

🧠 核心原理解析

1️⃣ Surrogate Loss(代理目標函數)

TRPO 不直接優化期望回報,而是構造一個代理目標:

L(theta) = E_{(s, a) ~ pi_old} [ (pi_theta(a|s) / pi_old(a|s)) * A^{pi_old}(s, a) ]

解釋:

L(theta):這是 TRPO 構造出的「代理目標函數」,用來代替直接最大化的期望回報。

pi_theta(a|s):當前新策略在狀態 s 下選擇動作 a 的機率。

pi_old(a|s):舊策略在同樣狀態下選擇動作的機率。

A^{pi_old}(s, a):舊策略下計算出的 Advantage,代表這個動作在該狀態下的相對好壞。

這個函數估計的是在 新策略 π_θ 下,行動會對舊策略 π_old 的優勢提升多少。

________________________________________

2️⃣ KL 限制條件(信任區間)

subject to KL(pi_old || pi_theta) <= delta

這條件保證策略更新「不要跳太遠」,避免策略表現退化,是 TRPO 最核心的穩定保證。

________________________________________

3️⃣ 二階優化與共軛梯度法

為了尊重 KL 限制,TRPO 使用二階近似:

maximize g^T * x

subject to x^T * H * x <= delta

其中:

g 是 Surrogate Loss 的梯度

H 是 KL 散度的 Hessian 矩陣

這可以轉化為共軛梯度法(Conjugate Gradient Method)來高效計算方向。

________________________________________

4️⃣ 線性搜尋(Line Search)

即便方向對了,還要測試不同步長 α,確保:

KL 不超過 δ

Surrogate Loss 不降低

才會接受該更新,這是「保守式改善策略」的關鍵。

________________________________________

🧪 TRPO 的核心優勢

特性 說明

✅ 策略穩定性保證 使用 KL 約束來防止策略崩潰

✅ 改進一定不會變差 理論上保證策略性能不會退步

✅ 適合連續動作空間 尤其在機器人控制、MuJoCo 等領域廣泛應用

________________________________________

⚠ TRPO 的潛在挑戰

🧮 實作複雜,需要計算 KL 散度 Hessian(通常近似)

🧠 共軛梯度法與線性搜尋步驟成本較高

🔁 每次更新只用一次資料 → 資料效率不佳(vs. PPO)

________________________________________

📚 關鍵公式回顧

📌 代理損失函數:

L(theta) = E_{(s, a) ~ pi_old} [ r(theta) * A^{pi_old}(s, a) ]

where r(theta) = pi_theta(a|s) / pi_old(a|s)

📌 KL 約束(限制策略變動):

subject to KL(pi_old || pi_theta) <= delta

完整理解:

我們希望讓新的策略 theta 能最大化代理損失 L(theta)(代表提升 Advantage 好的行動機率)。

但同時透過 KL 限制,控制新舊策略分布間的變化量不超過 delta,避免更新幅度過大、導致學習不穩定。

這組成了 TRPO 核心邏輯:

「穩定提升表現、又避免劇烈變化」。

________________________________________

✅ 單元小結

元素 說明

Surrogate Loss 避免直接最大化複雜的期望回報,轉而估計 Advantage 的改善程度

KL 限制 為了避免策略退化,加入「跳太遠」的懲罰

共軛梯度法 解決二次限制問題,用來計算最有效的策略更新方向

線性搜尋 找出剛好不違反 KL 限制的步長,確保安全更新

結果 在理論與實務上都具備「策略穩定改善」保證



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/25
TRPO 透過限制新舊策略間的 KL 散度,在「信任區間」內小步更新,避免性能退步並提升穩定性。適用於高維連續控制如機器人任務,但實作複雜。理念可類比投資、健身與職涯轉換的漸進式進步。
2025/09/25
TRPO 透過限制新舊策略間的 KL 散度,在「信任區間」內小步更新,避免性能退步並提升穩定性。適用於高維連續控制如機器人任務,但實作複雜。理念可類比投資、健身與職涯轉換的漸進式進步。
2025/09/25
本章統整策略梯度核心:從 REINFORCE 到 Actor-Critic,再到 A2C 與熵正則化,展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作,學習者能理解策略學習在連續與複雜環境中的優勢,為進階演算法奠基。
2025/09/25
本章統整策略梯度核心:從 REINFORCE 到 Actor-Critic,再到 A2C 與熵正則化,展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作,學習者能理解策略學習在連續與複雜環境中的優勢,為進階演算法奠基。
2025/09/25
本單元以 Actor-Critic 演算法實作 LunarLander-v2,透過 Actor 輸出策略、Critic 評估狀態價值,利用 TD 誤差更新雙網路,逐步學會安全降落。並提供調參與探索建議,展現強化學習從互動中習得決策的核心精神。
2025/09/25
本單元以 Actor-Critic 演算法實作 LunarLander-v2,透過 Actor 輸出策略、Critic 評估狀態價值,利用 TD 誤差更新雙網路,逐步學會安全降落。並提供調參與探索建議,展現強化學習從互動中習得決策的核心精神。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI,開啟效率新時代,釋放創意與行銷無限潛力
Thumbnail
「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI,開啟效率新時代,釋放創意與行銷無限潛力
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
- 騰鴻躍升國際《從傳統鈑金到AI機櫃》|工商時報 - 夏普堺工廠攜手KDDI 打造輝達驅動的AI資料中心|經濟日報 - 影片|黃仁勳台大演講說了什麼?盤點你不能錯過的3大AI關鍵字|數位時代 - 美查東南亞太陽能板 恐加稅|經濟日報
Thumbnail
- 騰鴻躍升國際《從傳統鈑金到AI機櫃》|工商時報 - 夏普堺工廠攜手KDDI 打造輝達驅動的AI資料中心|經濟日報 - 影片|黃仁勳台大演講說了什麼?盤點你不能錯過的3大AI關鍵字|數位時代 - 美查東南亞太陽能板 恐加稅|經濟日報
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
Thumbnail
STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
Thumbnail
STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News