Trust Region Policy Optimization教學 - Part 1

更新於 發佈於 閱讀時間約 1 分鐘

首先定義符號:

raw-image

因此我們有​

raw-image

其中

raw-image

再定義State Avtion Value.Function、Value Function和Advantage Function分別為:

raw-image

接著我定義

raw-image

此外觀察上述定義,能有

raw-image

因此我有以下展開

raw-image

這時回顧

raw-image

因此我有

raw-image

結合之後得到

raw-image

移項之後得到

raw-image

接著我把最後一項的期望值展開

raw-image

稍微調整一下位置

raw-image

然後我定義Discounted Visit Probability

raw-image

因此我有

raw-image

這告訴我們一件重要的事情:如果我要判斷新的Policy是否有比較好,只須要判斷對所有狀態下,如果有以下情況的話

raw-image

則新的Policy會較優。

這同時也說明,更新策略為

raw-image

此外要如何判斷已經達到最佳的Policy了呢?

只需要確保在新的Policy之下,其能達到的狀態和所有能採取的動作,都不再能造成正的

raw-image

則說明已經達到最佳Policy

留言
avatar-img
留言分享你的想法!
avatar-img
Learn AI 不 BI
235會員
770內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2024/05/25
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
2024/05/25
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
2024/05/25
上週發了一篇AI書單推薦 今天來談談,我是怎麼學習的,我總共學了七年AI,自然對於一個小白想入門有更深刻的體悟,更能了解怎麼樣學習才能不至於一次面臨太多困難而放棄 我的建議是這樣: 先花兩年把Machine Learning學完,當中會遇到很多數學問題,這方面可以「在遇到問題時」再去翻
2024/05/25
上週發了一篇AI書單推薦 今天來談談,我是怎麼學習的,我總共學了七年AI,自然對於一個小白想入門有更深刻的體悟,更能了解怎麼樣學習才能不至於一次面臨太多困難而放棄 我的建議是這樣: 先花兩年把Machine Learning學完,當中會遇到很多數學問題,這方面可以「在遇到問題時」再去翻
2024/05/18
這篇介紹我看過的AI書籍中,覺得很棒的書單,我按照不同的AI作法來分類: Machine Learning: Pattern Recognition and Machine Learning, Christopher M. Bishop, 2011 The Elements of Statis
2024/05/18
這篇介紹我看過的AI書籍中,覺得很棒的書單,我按照不同的AI作法來分類: Machine Learning: Pattern Recognition and Machine Learning, Christopher M. Bishop, 2011 The Elements of Statis
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
這篇內容,將會講解什麼是函式,以及與函式相關的知識。包括函式的簡介、Runtime Function、自訂函式、Script Function 腳本函式、Method 方法。
Thumbnail
這篇內容,將會講解什麼是函式,以及與函式相關的知識。包括函式的簡介、Runtime Function、自訂函式、Script Function 腳本函式、Method 方法。
Thumbnail
一般在使用 TypeScript 的時候,大家都有遇過定義列舉資料的情境吧。 不過不管是 enum 和 literal 的方式其實都有些小缺點,以下推薦一個個人認為體驗更好的方式。
Thumbnail
一般在使用 TypeScript 的時候,大家都有遇過定義列舉資料的情境吧。 不過不管是 enum 和 literal 的方式其實都有些小缺點,以下推薦一個個人認為體驗更好的方式。
Thumbnail
本章節旨在介紹TypeScript中的函數,包括其基本結構、如何呼叫函數、函數的參數以及函數的返回值等相關概念。通過本章節,讀者可以學習到如何在TypeScript中使用不同的方式來定義函數,如函數聲明、函數表達式、箭頭函數和匿名函數等。
Thumbnail
本章節旨在介紹TypeScript中的函數,包括其基本結構、如何呼叫函數、函數的參數以及函數的返回值等相關概念。通過本章節,讀者可以學習到如何在TypeScript中使用不同的方式來定義函數,如函數聲明、函數表達式、箭頭函數和匿名函數等。
Thumbnail
Function的使用方式
Thumbnail
Function的使用方式
Thumbnail
在Python中,我們可以用def關鍵字定義函數,並透過函數名稱呼叫它。函數參數可以是必填、關鍵字、默認或不定長度的類型。return語句負責結束函數並回傳值。全域變數可以在整個程序中使用,而區域變數只能在特定函數內使用。我們還可以在一個文件中定義函數,然後在另一個文件中呼叫它。
Thumbnail
在Python中,我們可以用def關鍵字定義函數,並透過函數名稱呼叫它。函數參數可以是必填、關鍵字、默認或不定長度的類型。return語句負責結束函數並回傳值。全域變數可以在整個程序中使用,而區域變數只能在特定函數內使用。我們還可以在一個文件中定義函數,然後在另一個文件中呼叫它。
Thumbnail
本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討,提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題,提供了設計系統和應用領域驅動設計的指導。
Thumbnail
本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討,提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題,提供了設計系統和應用領域驅動設計的指導。
Thumbnail
代理模式通過封裝原始對象來實現對該對象的控制和管理,同時不改變原始對象的行為或客戶端與該對象互動的方式,以此介入或增強對該對象的訪問和操作。
Thumbnail
代理模式通過封裝原始對象來實現對該對象的控制和管理,同時不改變原始對象的行為或客戶端與該對象互動的方式,以此介入或增強對該對象的訪問和操作。
Thumbnail
策略模式將多種演算法封裝於獨立的策略類別中,每個策略類別都實現了一個共同的介面。這種設計允許使用者在系統運行時動態選擇和切換演算法,以達成相同的目的。
Thumbnail
策略模式將多種演算法封裝於獨立的策略類別中,每個策略類別都實現了一個共同的介面。這種設計允許使用者在系統運行時動態選擇和切換演算法,以達成相同的目的。
Thumbnail
關於程式語言的學習,只要掌握住幾個基本特性要熟悉幾種程式語言也不困難,這三個基本特性就是…
Thumbnail
關於程式語言的學習,只要掌握住幾個基本特性要熟悉幾種程式語言也不困難,這三個基本特性就是…
Thumbnail
本文將介紹自定函式及應用,利用程式範例解釋為什麼要用到自定函式 自定函式好處當然就是,讓你的程式碼看起來比較簡潔,在重複使用到的程式碼區塊,可以包裝成函式,讓你重複使用它。
Thumbnail
本文將介紹自定函式及應用,利用程式範例解釋為什麼要用到自定函式 自定函式好處當然就是,讓你的程式碼看起來比較簡潔,在重複使用到的程式碼區塊,可以包裝成函式,讓你重複使用它。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News