Trust Region Policy Optimization教學 - Part 1

LearnAI

發佈於自然語言處理相關

2024/05/13 更新2024/05/10 發佈閱讀 1 分鐘

首先定義符號：

因此我們有

其中

再定義State Avtion Value.Function、Value Function和Advantage Function分別為：

接著我定義

此外觀察上述定義，能有

因此我有以下展開

這時回顧

因此我有

結合之後得到

移項之後得到

接著我把最後一項的期望值展開

稍微調整一下位置

然後我定義Discounted Visit Probability

因此我有

這告訴我們一件重要的事情：如果我要判斷新的Policy是否有比較好，只須要判斷對所有狀態下，如果有以下情況的話

則新的Policy會較優。

這同時也說明，更新策略為

此外要如何判斷已經達到最佳的Policy了呢？

只需要確保在新的Policy之下，其能達到的狀態和所有能採取的動作，都不再能造成正的

則說明已經達到最佳Policy

Learn AI 不 BI自然語言處理相關

留言

Learn AI 不 BI

249會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/05/25

我的AI專案思考路徑

最近接了一個AI專案，客戶要求以AI方式實現節能功能，以下提供我的專案思考軌跡：面對這樣的技術，我第一個想到使用Reinforcement Learning技術，然而這裡我思考一件事，這個專案是要幫助客戶賺錢的，在沒有Digital Twin的搭配之下，貿然使用Reinforcement L

2024/05/25

我的AI專案思考路徑

2024/05/25

怎麼學AI

上週發了一篇AI書單推薦今天來談談，我是怎麼學習的，我總共學了七年AI，自然對於一個小白想入門有更深刻的體悟，更能了解怎麼樣學習才能不至於一次面臨太多困難而放棄我的建議是這樣：先花兩年把Machine Learning學完，當中會遇到很多數學問題，這方面可以「在遇到問題時」再去翻

2024/05/25

怎麼學AI

2024/05/18

AI書單推薦

這篇介紹我看過的AI書籍中，覺得很棒的書單，我按照不同的AI作法來分類： Machine Learning: Pattern Recognition and Machine Learning, Christopher M. Bishop, 2011 The Elements of Statis

2024/05/18

AI書單推薦

看更多

你可能也想看

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

創作不只是個人戰，在 vocus ，也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」，現在有了更強大的新夥伴加入！除了大家熟悉的「官方主題沙龍」，這次我們徵召了 8 位領域各異的「個人主題專家」，將再度嘗試創作的各種可能，和格友們激發出更多未知的火花。

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

看完上篇 4 位新成員的靈魂拷問，是不是意猶未盡？別急，野格團新血的驚喜正接著登場！今天下篇接力的另外 4 位「個人主題專家」，戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長；這些人如何維持長跑般的創作動力？在爆紅的文章背後，又藏著哪些不為人知的洞察？5 大靈魂拷問繼續出擊

#創作#創作者推薦#靈感

2026/03/25

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

#創作#創作者推薦#靈感

2026/03/25

開心做遊戲 Happy Making Game

GameMaker｜Function 函式｜程式基礎

這篇內容，將會講解什麼是函式，以及與函式相關的知識。包括函式的簡介、Runtime Function、自訂函式、Script Function 腳本函式、Method 方法。

#遊戲製作#遊戲開發#遊戲設計

2024/08/02

開心做遊戲 Happy Making Game

GameMaker｜Function 函式｜程式基礎

這篇內容，將會講解什麼是函式，以及與函式相關的知識。包括函式的簡介、Runtime Function、自訂函式、Script Function 腳本函式、Method 方法。

#遊戲製作#遊戲開發#遊戲設計

2024/08/02

鱈魚的魚缸

TypeScript 之 DX 體驗更好的列舉資料定義方式

一般在使用 TypeScript 的時候，大家都有遇過定義列舉資料的情境吧。不過不管是 enum 和 literal 的方式其實都有些小缺點，以下推薦一個個人認為體驗更好的方式。

#TypeScript#Enum#literal

2024/07/16

鱈魚的魚缸

TypeScript 之 DX 體驗更好的列舉資料定義方式

#TypeScript#Enum#literal

2024/07/16

Michael楊

Typescript入門-Day7：函數

本章節旨在介紹TypeScript中的函數，包括其基本結構、如何呼叫函數、函數的參數以及函數的返回值等相關概念。通過本章節，讀者可以學習到如何在TypeScript中使用不同的方式來定義函數，如函數聲明、函數表達式、箭頭函數和匿名函數等。

2024/06/11

2024/06/11

Function的使用方式

2024/06/10

Youna

[Lua] Function

Function的使用方式

2024/06/10

Michael楊

Python入門-Day7：函數

在Python中，我們可以用def關鍵字定義函數，並透過函數名稱呼叫它。函數參數可以是必填、關鍵字、默認或不定長度的類型。return語句負責結束函數並回傳值。全域變數可以在整個程序中使用，而區域變數只能在特定函數內使用。我們還可以在一個文件中定義函數，然後在另一個文件中呼叫它。

2024/05/14

2024/05/14

本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討，提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題，提供了設計系統和應用領域驅動設計的指導。

2024/05/09

2024/05/09

代理模式通過封裝原始對象來實現對該對象的控制和管理，同時不改變原始對象的行為或客戶端與該對象互動的方式，以此介入或增強對該對象的訪問和操作。

2024/04/24

2024/04/24

策略模式將多種演算法封裝於獨立的策略類別中，每個策略類別都實現了一個共同的介面。這種設計允許使用者在系統運行時動態選擇和切換演算法，以達成相同的目的。

2024/04/24

2024/04/24

關於程式語言的學習，只要掌握住幾個基本特性要熟悉幾種程式語言也不困難，這三個基本特性就是…

#程式語言#循序#選擇

2024/02/27

Warren Lo的沙龍

程式語言的三個基本特性

關於程式語言的學習，只要掌握住幾個基本特性要熟悉幾種程式語言也不困難，這三個基本特性就是…

#程式語言#循序#選擇

2024/02/27

螃蟹_crab的沙龍

[Python基礎]理解自定函式

本文將介紹自定函式及應用，利用程式範例解釋為什麼要用到自定函式自定函式好處當然就是，讓你的程式碼看起來比較簡潔，在重複使用到的程式碼區塊，可以包裝成函式，讓你重複使用它。

#Python#Python基礎#自定函式

2024/01/09

螃蟹_crab的沙龍

[Python基礎]理解自定函式

#Python#Python基礎#自定函式

2024/01/09

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News