第三部《強化學習》63/100 ⚙️ 最受歡迎的強化學習演算法! PPO(Proximal Policy Optimiz

更新 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

63/100 第七週:📌 高階強化學習演算法

63.Proximal Policy Optimization(PPO)⚙️ 最受歡迎的強化學習演算法!

PPO(Proximal Policy Optimization,近端策略優化)是什麼?

PPO 是一種改良型的 策略梯度強化學習演算法,目的是在「學習穩定性」與「實作簡單性」之間取得平衡。

________________________________________

🎯 學習目標

理解 PPO 的核心設計理念與動機

掌握 PPO 的「剪裁目標函數(Clipped Objective)」

理解 PPO 如何實現穩定、簡單且高效的策略更新

知道 PPO 為何成為深度強化學習界的主流方法

________________________________________

🧩 背景:為什麼會有 PPO?

TRPO 雖然穩定,但:

🧮 計算代價高(需要 Hessian 近似與共軛梯度法)

🧠 實作複雜,不易部署到工業應用中

👉 OpenAI 在 2017 年提出了 PPO:保持 TRPO 的穩定性,同時簡化實作,效果一樣好,速度更快!

________________________________________

🧠 PPO 核心概念:限制策略變化,但用簡單方法達成

PPO 的關鍵思想是:透過 clip 函數限制新舊策略的更新幅度,在穩定學習的同時持續改進策略性能。

不用真實 KL 限制區間

改用 目標函數中「剪裁」策略比例(Probability Ratio) 來避免更新過大

________________________________________

📘 PPO 的目標函數(Clipped Surrogate Objective)

L_CLIP(theta) = E_t [ min( r_t(theta) * A_t ,

clip( r_t(theta), 1 - epsilon, 1 + epsilon ) * A_t ) ]

where r_t(theta) = pi_theta(a_t | s_t) / pi_old(a_t | s_t)

其中:

r_t(theta) :新舊策略在同一狀態下對應動作的機率比值(重要性比率)。

A_t :該狀態下動作的優勢值 (Advantage)。

clip(...) :將 r_t(theta) 裁剪在區間 [1 - epsilon, 1 + epsilon] 內,防止更新幅度過大。

min(...) :取裁剪前後的較小值,讓學習過程中即使 Advantage 很大時,也不會出現過度放大的梯度更新,達到穩定學習。

✅ 為什麼用 min()?

min() 的作用就是讓 PPO 變成「想進步 → 但不讓你一次跳太遠」。

只允許「溫和穩定地」提升策略,穩定性大大提高。

________________________________________

🔁 PPO 全流程架構

1. 與環境互動 → 蒐集多條 episode

2. 利用現有策略 π_old 評估 Advantage(可用 GAE)

3. 構建剪裁目標函數 L^CLIP

4. 使用 SGD 或 Adam 進行多次小批次(mini-batch)更新

5. 更新策略 π_new,並重複流程

________________________________________

🆚 TRPO vs PPO 的比較

  • 更新限制方式:TRPO 採用 KL 散度硬限制;PPO 使用策略比剪裁軟限制。
  • 實作難度:TRPO 高,需要 Hessian 估算;PPO 中等,只需一階導數。
  • 計算成本:TRPO 高,需共軛梯度法;PPO 低,採用 SGD + clip。
  • 常用場景:TRPO 用於理論要求高的研究場景;PPO 為工程應用首選。
  • 穩定性:TRPO 理論上穩定;PPO 在實務表現上同樣穩定。
  • 是否主流:TRPO 中等;PPO 壓倒性成為主流方法。

________________________________________

🧪 實作技巧與建議

使用 GAE(Generalized Advantage Estimation) 能讓 Advantage 更平滑

PPO 適合使用 Adam Optimizer、mini-batch SGD、隨機打亂資料

通常每次更新會用 52048 條樣本

________________________________________

📦 PPO 應用場景(廣泛!)

🧍 模擬機器人(MuJoCo、Bullet)

🕹 遊戲訓練(Atari, Unity ML-Agents)

🤖 機器學習控制(OpenAI Five, Dota2)

💬 對話系統與回饋學習(ChatGPT RLHF)

________________________________________

✅ 單元小結

  • 策略比 r_t:衡量新策略與舊策略的差異,作為更新依據。
  • 剪裁策略比:限制更新幅度,避免策略偏離過遠。
  • GAE:透過廣義優勢估計,使 Advantage 計算更穩定並降低方差。
  • SGD + mini-batch:分批隨機梯度下降,提高訓練效率與收斂穩定性。
  • PPO 優勢:實作簡單、效率高、更新穩定,成為目前主流的強化學習方法。

________________________________________

🎓 延伸任務建議

✅ 在 OpenAI Gym 中用 PPO 訓練 CartPole-v1 和 Pendulum-v1

✅ 比較 PPO 與 REINFORCE 的收斂速度

✅ 實驗不同剪裁範圍 ϵ\epsilonϵ,觀察策略穩定性與學習曲線變化



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/25
TRPO 透過代理目標函數與 KL 散度限制,在「信任區間」內進行小步更新,結合共軛梯度法與線性搜尋,保證策略穩定提升。適合連續控制任務,但實作較複雜、計算成本高,卻在理論上具備穩定改進保障。
2025/09/25
TRPO 透過代理目標函數與 KL 散度限制,在「信任區間」內進行小步更新,結合共軛梯度法與線性搜尋,保證策略穩定提升。適合連續控制任務,但實作較複雜、計算成本高,卻在理論上具備穩定改進保障。
2025/09/25
TRPO 透過限制新舊策略間的 KL 散度,在「信任區間」內小步更新,避免性能退步並提升穩定性。適用於高維連續控制如機器人任務,但實作複雜。理念可類比投資、健身與職涯轉換的漸進式進步。
2025/09/25
TRPO 透過限制新舊策略間的 KL 散度,在「信任區間」內小步更新,避免性能退步並提升穩定性。適用於高維連續控制如機器人任務,但實作複雜。理念可類比投資、健身與職涯轉換的漸進式進步。
2025/09/25
本章統整策略梯度核心:從 REINFORCE 到 Actor-Critic,再到 A2C 與熵正則化,展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作,學習者能理解策略學習在連續與複雜環境中的優勢,為進階演算法奠基。
2025/09/25
本章統整策略梯度核心:從 REINFORCE 到 Actor-Critic,再到 A2C 與熵正則化,展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作,學習者能理解策略學習在連續與複雜環境中的優勢,為進階演算法奠基。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI,開啟效率新時代,釋放創意與行銷無限潛力
Thumbnail
「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI,開啟效率新時代,釋放創意與行銷無限潛力
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News