第三部《強化學習》63/100 ⚙️ 最受歡迎的強化學習演算法！ PPO（Proximal Policy Optimiz

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/25 更新2025/09/25 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

63/100 第七週：📌 高階強化學習演算法

63.Proximal Policy Optimization（PPO）⚙️ 最受歡迎的強化學習演算法！

PPO（Proximal Policy Optimization，近端策略優化）是什麼？

PPO 是一種改良型的策略梯度強化學習演算法，目的是在「學習穩定性」與「實作簡單性」之間取得平衡。

________________________________________

🎯 學習目標

• 理解 PPO 的核心設計理念與動機

• 掌握 PPO 的「剪裁目標函數（Clipped Objective）」

• 理解 PPO 如何實現穩定、簡單且高效的策略更新

• 知道 PPO 為何成為深度強化學習界的主流方法

________________________________________

🧩 背景：為什麼會有 PPO？

TRPO 雖然穩定，但：

• 🧮 計算代價高（需要 Hessian 近似與共軛梯度法）

• 🧠 實作複雜，不易部署到工業應用中

👉 OpenAI 在 2017 年提出了 PPO：保持 TRPO 的穩定性，同時簡化實作，效果一樣好，速度更快！

________________________________________

🧠 PPO 核心概念：限制策略變化，但用簡單方法達成

PPO 的關鍵思想是：透過 clip 函數限制新舊策略的更新幅度，在穩定學習的同時持續改進策略性能。

• 不用真實 KL 限制區間

• 改用目標函數中「剪裁」策略比例（Probability Ratio）來避免更新過大

________________________________________

📘 PPO 的目標函數（Clipped Surrogate Objective）

L_CLIP(theta) = E_t [ min( r_t(theta) * A_t ,

clip( r_t(theta), 1 - epsilon, 1 + epsilon ) * A_t ) ]

where r_t(theta) = pi_theta(a_t | s_t) / pi_old(a_t | s_t)

其中：

r_t(theta) ：新舊策略在同一狀態下對應動作的機率比值（重要性比率）。

A_t ：該狀態下動作的優勢值 (Advantage)。

clip(...) ：將 r_t(theta) 裁剪在區間 [1 - epsilon, 1 + epsilon] 內，防止更新幅度過大。

min(...) ：取裁剪前後的較小值，讓學習過程中即使 Advantage 很大時，也不會出現過度放大的梯度更新，達到穩定學習。

✅ 為什麼用 min()？

min() 的作用就是讓 PPO 變成「想進步 → 但不讓你一次跳太遠」。

只允許「溫和穩定地」提升策略，穩定性大大提高。

________________________________________

🔁 PPO 全流程架構

1. 與環境互動 → 蒐集多條 episode

↓

2. 利用現有策略 π_old 評估 Advantage（可用 GAE）

↓

3. 構建剪裁目標函數 L^CLIP

↓

4. 使用 SGD 或 Adam 進行多次小批次（mini-batch）更新

↓

5. 更新策略 π_new，並重複流程

________________________________________

🆚 TRPO vs PPO 的比較

更新限制方式：TRPO 採用 KL 散度硬限制；PPO 使用策略比剪裁軟限制。
實作難度：TRPO 高，需要 Hessian 估算；PPO 中等，只需一階導數。
計算成本：TRPO 高，需共軛梯度法；PPO 低，採用 SGD + clip。
常用場景：TRPO 用於理論要求高的研究場景；PPO 為工程應用首選。
穩定性：TRPO 理論上穩定；PPO 在實務表現上同樣穩定。
是否主流：TRPO 中等；PPO 壓倒性成為主流方法。

________________________________________

🧪 實作技巧與建議

• 使用 GAE（Generalized Advantage Estimation）能讓 Advantage 更平滑

• PPO 適合使用 Adam Optimizer、mini-batch SGD、隨機打亂資料

• 通常每次更新會用 52048 條樣本

________________________________________

📦 PPO 應用場景（廣泛！）

• 🧍 模擬機器人（MuJoCo、Bullet）

• 🕹 遊戲訓練（Atari, Unity ML-Agents）

• 🤖 機器學習控制（OpenAI Five, Dota2）

• 💬 對話系統與回饋學習（ChatGPT RLHF）

________________________________________

✅ 單元小結

策略比 r_t：衡量新策略與舊策略的差異，作為更新依據。
剪裁策略比：限制更新幅度，避免策略偏離過遠。
GAE：透過廣義優勢估計，使 Advantage 計算更穩定並降低方差。
SGD + mini-batch：分批隨機梯度下降，提高訓練效率與收斂穩定性。
PPO 優勢：實作簡單、效率高、更新穩定，成為目前主流的強化學習方法。

________________________________________

🎓 延伸任務建議

• ✅ 在 OpenAI Gym 中用 PPO 訓練 CartPole-v1 和 Pendulum-v1

• ✅ 比較 PPO 與 REINFORCE 的收斂速度

• ✅ 實驗不同剪裁範圍 ϵ\epsilonϵ，觀察策略穩定性與學習曲線變化

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

388內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/25

第三部《強化學習》62/100 TRPO 架構與核心原理 🏛 保證策略改進的穩定性！

TRPO 透過代理目標函數與 KL 散度限制，在「信任區間」內進行小步更新，結合共軛梯度法與線性搜尋，保證策略穩定提升。適合連續控制任務，但實作較複雜、計算成本高，卻在理論上具備穩定改進保障。

2025/09/25

第三部《強化學習》62/100 TRPO 架構與核心原理 🏛 保證策略改進的穩定性！

2025/09/25

第三部《強化學習》61/100 什麼是 Trust Region Policy Optimization（TRPO）🧠

TRPO 透過限制新舊策略間的 KL 散度，在「信任區間」內小步更新，避免性能退步並提升穩定性。適用於高維連續控制如機器人任務，但實作複雜。理念可類比投資、健身與職涯轉換的漸進式進步。

2025/09/25

第三部《強化學習》61/100 什麼是 Trust Region Policy Optimization（TRPO）🧠

2025/09/25

第三部《強化學習》60/100 第六周小結與測驗：策略學習的力量 🔁 優雅又高效的決策者！

本章統整策略梯度核心：從 REINFORCE 到 Actor-Critic，再到 A2C 與熵正則化，展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作，學習者能理解策略學習在連續與複雜環境中的優勢，為進階演算法奠基。

2025/09/25

第三部《強化學習》60/100 第六周小結與測驗：策略學習的力量 🔁 優雅又高效的決策者！

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

#懶人料理#食譜#健康甜點

2025/10/15

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

#AI#ML#人工智能

2024/07/26

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

#AI#ML#人工智能

2024/07/26

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19