Trust Region Policy Optimization教學 - Part 1

更新 發佈閱讀 1 分鐘

首先定義符號:

raw-image

因此我們有​

raw-image

其中

raw-image

再定義State Avtion Value.Function、Value Function和Advantage Function分別為:

raw-image

接著我定義

raw-image

此外觀察上述定義,能有

raw-image

因此我有以下展開

raw-image

這時回顧

raw-image

因此我有

raw-image

結合之後得到

raw-image

移項之後得到

raw-image

接著我把最後一項的期望值展開

raw-image

稍微調整一下位置

raw-image

然後我定義Discounted Visit Probability

raw-image

因此我有

raw-image

這告訴我們一件重要的事情:如果我要判斷新的Policy是否有比較好,只須要判斷對所有狀態下,如果有以下情況的話

raw-image

則新的Policy會較優。

這同時也說明,更新策略為

raw-image

此外要如何判斷已經達到最佳的Policy了呢?

只需要確保在新的Policy之下,其能達到的狀態和所有能採取的動作,都不再能造成正的

raw-image

則說明已經達到最佳Policy

留言
avatar-img
留言分享你的想法!
avatar-img
Learn AI 不 BI
240會員
876內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2024/05/25
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
2024/05/25
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
2024/05/25
上週發了一篇AI書單推薦 今天來談談,我是怎麼學習的,我總共學了七年AI,自然對於一個小白想入門有更深刻的體悟,更能了解怎麼樣學習才能不至於一次面臨太多困難而放棄 我的建議是這樣: 先花兩年把Machine Learning學完,當中會遇到很多數學問題,這方面可以「在遇到問題時」再去翻
2024/05/25
上週發了一篇AI書單推薦 今天來談談,我是怎麼學習的,我總共學了七年AI,自然對於一個小白想入門有更深刻的體悟,更能了解怎麼樣學習才能不至於一次面臨太多困難而放棄 我的建議是這樣: 先花兩年把Machine Learning學完,當中會遇到很多數學問題,這方面可以「在遇到問題時」再去翻
2024/05/18
這篇介紹我看過的AI書籍中,覺得很棒的書單,我按照不同的AI作法來分類: Machine Learning: Pattern Recognition and Machine Learning, Christopher M. Bishop, 2011 The Elements of Statis
2024/05/18
這篇介紹我看過的AI書籍中,覺得很棒的書單,我按照不同的AI作法來分類: Machine Learning: Pattern Recognition and Machine Learning, Christopher M. Bishop, 2011 The Elements of Statis
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
這篇內容,將會講解什麼是函式,以及與函式相關的知識。包括函式的簡介、Runtime Function、自訂函式、Script Function 腳本函式、Method 方法。
Thumbnail
這篇內容,將會講解什麼是函式,以及與函式相關的知識。包括函式的簡介、Runtime Function、自訂函式、Script Function 腳本函式、Method 方法。
Thumbnail
一般在使用 TypeScript 的時候,大家都有遇過定義列舉資料的情境吧。 不過不管是 enum 和 literal 的方式其實都有些小缺點,以下推薦一個個人認為體驗更好的方式。
Thumbnail
一般在使用 TypeScript 的時候,大家都有遇過定義列舉資料的情境吧。 不過不管是 enum 和 literal 的方式其實都有些小缺點,以下推薦一個個人認為體驗更好的方式。
Thumbnail
本章節旨在介紹TypeScript中的函數,包括其基本結構、如何呼叫函數、函數的參數以及函數的返回值等相關概念。通過本章節,讀者可以學習到如何在TypeScript中使用不同的方式來定義函數,如函數聲明、函數表達式、箭頭函數和匿名函數等。
Thumbnail
本章節旨在介紹TypeScript中的函數,包括其基本結構、如何呼叫函數、函數的參數以及函數的返回值等相關概念。通過本章節,讀者可以學習到如何在TypeScript中使用不同的方式來定義函數,如函數聲明、函數表達式、箭頭函數和匿名函數等。
Thumbnail
Function的使用方式
Thumbnail
Function的使用方式
Thumbnail
在Python中,我們可以用def關鍵字定義函數,並透過函數名稱呼叫它。函數參數可以是必填、關鍵字、默認或不定長度的類型。return語句負責結束函數並回傳值。全域變數可以在整個程序中使用,而區域變數只能在特定函數內使用。我們還可以在一個文件中定義函數,然後在另一個文件中呼叫它。
Thumbnail
在Python中,我們可以用def關鍵字定義函數,並透過函數名稱呼叫它。函數參數可以是必填、關鍵字、默認或不定長度的類型。return語句負責結束函數並回傳值。全域變數可以在整個程序中使用,而區域變數只能在特定函數內使用。我們還可以在一個文件中定義函數,然後在另一個文件中呼叫它。
Thumbnail
本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討,提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題,提供了設計系統和應用領域驅動設計的指導。
Thumbnail
本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討,提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題,提供了設計系統和應用領域驅動設計的指導。
Thumbnail
代理模式通過封裝原始對象來實現對該對象的控制和管理,同時不改變原始對象的行為或客戶端與該對象互動的方式,以此介入或增強對該對象的訪問和操作。
Thumbnail
代理模式通過封裝原始對象來實現對該對象的控制和管理,同時不改變原始對象的行為或客戶端與該對象互動的方式,以此介入或增強對該對象的訪問和操作。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News