第三部《強化學習》61/100 什麼是 Trust Region Policy Optimization(TRPO)🧠

更新 發佈閱讀 9 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

61/100 第七週:📌 高階強化學習演算法

61.什麼是 Trust Region Policy Optimization(TRPO)🧠 小步快跑的安全策略更新!

🧠 小步快跑的安全策略更新!

________________________________________

🎯 單元目標

了解 TRPO 的設計動機與數學基礎

掌握「信任區間」(Trust Region)的概念

學會 TRPO 與其他策略梯度方法(如 REINFORCE、PPO)的比較與優劣

探索 TRPO 在實際環境中的應用與限制

________________________________________

📌 為什麼需要 TRPO?

傳統的策略梯度方法(如 REINFORCE、Vanilla Policy Gradient)會直接對策略參數進行梯度上升更新。然而,如果更新步伐太大,可能導致策略性能急劇下降。

👉 想像你走鋼索,每一步都想向前邁進,但走太快反而可能跌下去!

因此,TRPO 的誕生就是為了限制每次更新不要離原策略太遠,確保穩定提升性能。

________________________________________

🔍 TRPO 的核心概念:信任區間

TRPO 採用 Trust Region(信任區間) 這個概念,來限制策略更新的幅度。

⚠ 問題轉化:

最大化期望回報 J(π) 時,加入一個限制條件:

最大化:

E_{(s, a) ~ pi_old} [ (pi_theta(a|s) / pi_old(a|s)) * A_hat(s, a) ]

限制條件:

KL(pi_old || pi_theta) <= delta

其中各項說明:

A_hat(s, a):Advantage 函數(優勢函數)

KL(pi_old || pi_theta):新舊策略之間的 KL 散度,衡量策略改變的幅度

delta:超參數,控制每次更新時策略的變化範圍

簡單理解:

希望新策略提升好行為的機率,但又不讓策略每次更新變動太大,避免破壞已學到的好策略。這正是 Trust Region Policy Optimization (TRPO) 的核心思想。

________________________________________

📘 TRPO 的數學直觀

TRPO 的做法是 通過二次近似(Second-order Approximation) 和 拉格朗日乘子法(Lagrangian Multiplier) 來求解上述限制最大化問題。

這是 TRPO 的核心優化問題,在原本的期望與 KL 限制條件下,經過二階泰勒展開與近似,最後簡化為:

最大化目標:

max_theta g^T * (theta - theta_old)

限制條件:

(theta - theta_old)^T * H * (theta - theta_old) <= delta

其中:

g:是策略梯度,即對 θ 的一階導數

H:是 Fisher Information Matrix 的近似,反映 KL 散度對 θ 的二階導數

theta:目前要更新的新參數

theta_old:上一輪的舊參數

delta:控制策略更新幅度的超參數

簡單理解:

在「限制參數變動幅度」的範圍內(透過二次型限制式控制),盡可能朝著目前的梯度方向前進,達成既穩定又有效率的策略更新。

這其實就是在高維空間中做「信任區間內的最佳化 (Trust Region Optimization)」。

________________________________________

🛠 TRPO 實作步驟

1. 收集樣本軌跡:使用目前策略與環境互動

2. 計算 Advantage:用 GAE(Generalized Advantage Estimation)等技術估算

3. 構造損失函數與 KL 散度約束

4. 用共軛梯度法(Conjugate Gradient)解出最佳參數方向

5. 用線搜尋(Line Search)控制步長,確保 KL 散度不超過預設閾值 δ\deltaδ

________________________________________

🆚 TRPO vs 其他方法

在不同策略梯度方法中,REINFORCE 雖簡單易實作,但由於完全依賴完整回報,更新波動大、穩定性差;Vanilla Policy Gradient 雖使用 Advantage 改善方差,但仍未限制每次策略變動幅度,容易不穩定;TRPO 引入明確的 KL 限制,能有效保證更新穩定,但實作上需計算二階導數,較為複雜;PPO 透過簡化的 clip 機制,近似控制 KL 變動範圍,既能穩定更新,又容易實作,成為目前實務上廣泛應用的大型神經網路強化學習主流方法。

________________________________________

📦 TRPO 的應用場景

TRPO 尤其適合於:

機器人控制(如 MuJoCo 模擬環境)

高維連續控制問題

對策略穩定性要求高的場景

________________________________________

🚧 缺點與改進方向

⚠ 二階導數成本高:需要近似計算海森矩陣

⚠ 實作複雜:相對於 PPO,開發者門檻較高

這些缺點促成了後來更簡潔實用的 PPO(Proximal Policy Optimization) 方法的誕生。

________________________________________

✅ 單元小結

TRPO 的核心思想是在每次更新策略時,透過限制新舊策略間的 KL 散度,避免策略變化過快導致學習退步,確保穩定提升。技術上結合了共軛梯度法、線搜尋與 KL 約束來求解最適更新方向,特別適合高穩定性需求的連續控制任務。其優點是穩定性高、理論保障強,但由於涉及二階導數與複雜的優化過程,實作成本較高。相比之下,PPO 透過 clip 機制近似限制策略變動,雖犧牲部分精準度,但大幅簡化實作流程,成為實務上更受歡迎的穩定訓練方法。

________________________________________


🏠 TRPO 的生活應用案例

1️⃣ 理財投資 – 逐步調整資產配置

投資策略若一次調整太激進(例如把全部資金從股票轉到加密貨幣),可能帶來巨大風險。TRPO 的「信任區間」就像每次只允許小幅度調整資產比例,確保在「安全範圍」內優化投資組合,避免因短期震盪而重創整體績效。


2️⃣ 運動健身 – 漸進式加重訓練

舉重或跑步訓練時,如果突然增加過大的重量或強度,容易導致受傷。TRPO 的小步快跑理念,就像逐步增加重量(每次+2.5 公斤)或增加跑步距離,讓身體逐漸適應,確保「穩定進步而不退步」。


3️⃣ 職涯轉換 – 漸進式嘗試新領域

從金融業轉到 AI 領域,若直接全職跳槽可能風險過大。TRPO 的方法就像先在信任區間內「小規模嘗試」:先修課、做副業專案或兼職,確保每次跨出的一步不會太偏離舊領域,穩定積累,逐漸完成轉型。

________________________________________

🧪 延伸實作練習

✅ 實作一個簡單的 TRPO agent 於 OpenAI Gym 的 CartPole-v1 環境

✅ 比較 TRPO 與 PPO 在 HalfCheetah-v2 中的收斂曲線

✅ 分析 TRPO 更新中 KL 散度變化與回報的關聯性


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
12會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/25
本章統整策略梯度核心:從 REINFORCE 到 Actor-Critic,再到 A2C 與熵正則化,展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作,學習者能理解策略學習在連續與複雜環境中的優勢,為進階演算法奠基。
2025/09/25
本章統整策略梯度核心:從 REINFORCE 到 Actor-Critic,再到 A2C 與熵正則化,展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作,學習者能理解策略學習在連續與複雜環境中的優勢,為進階演算法奠基。
2025/09/25
本單元以 Actor-Critic 演算法實作 LunarLander-v2,透過 Actor 輸出策略、Critic 評估狀態價值,利用 TD 誤差更新雙網路,逐步學會安全降落。並提供調參與探索建議,展現強化學習從互動中習得決策的核心精神。
2025/09/25
本單元以 Actor-Critic 演算法實作 LunarLander-v2,透過 Actor 輸出策略、Critic 評估狀態價值,利用 TD 誤差更新雙網路,逐步學會安全降落。並提供調參與探索建議,展現強化學習從互動中習得決策的核心精神。
2025/09/25
熵正則化在強化學習中透過增加策略的不確定性,避免模型過早收斂於單一路徑,促進探索並提升長期表現。調整 β 參數能平衡探索與收斂,應用於遊戲、自駕車、多目標學習等場景,提升穩定性與適應力。
2025/09/25
熵正則化在強化學習中透過增加策略的不確定性,避免模型過早收斂於單一路徑,促進探索並提升長期表現。調整 β 參數能平衡探索與收斂,應用於遊戲、自駕車、多目標學習等場景,提升穩定性與適應力。
看更多
你可能也想看
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI,開啟效率新時代,釋放創意與行銷無限潛力
Thumbnail
「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI,開啟效率新時代,釋放創意與行銷無限潛力
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News