Trust Region Policy Optimization教學 - Part 1

閱讀時間約 1 分鐘

首先定義符號:

raw-image

因此我們有​

raw-image

其中

raw-image

再定義State Avtion Value.Function、Value Function和Advantage Function分別為:

raw-image

接著我定義

raw-image

此外觀察上述定義,能有

raw-image

因此我有以下展開

raw-image

這時回顧

raw-image

因此我有

raw-image

結合之後得到

raw-image

移項之後得到

raw-image

接著我把最後一項的期望值展開

raw-image

稍微調整一下位置

raw-image

然後我定義Discounted Visit Probability

raw-image

因此我有

raw-image

這告訴我們一件重要的事情:如果我要判斷新的Policy是否有比較好,只須要判斷對所有狀態下,如果有以下情況的話

raw-image

則新的Policy會較優。

這同時也說明,更新策略為

raw-image

此外要如何判斷已經達到最佳的Policy了呢?

只需要確保在新的Policy之下,其能達到的狀態和所有能採取的動作,都不再能造成正的

raw-image

則說明已經達到最佳Policy

avatar-img
161會員
410內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Learn AI 不 BI 的其他內容
回顧我們的目標是自己做一個免錢Chat GPT 自己做免錢Chat GPT吧 當中,我希望外掛一個外部知識庫,叫做RAG,來提升整體問答的品質,同時又能避免機敏資訊被Chat GPT竊取。 緣由參見 ChatGPT回答不是你要的怎麼辦? 詳細實作於 使用Meta釋出的模型,實作Chat G
人工智慧中最受歡迎的作法莫過於類神經網路,以當今最受歡迎的大型語言模型 (LLM)也不例外,然而這些持續受到爭議:黑盒子,也就是說我們不知道它內部怎麼運作,只知道給它一段話,它就會輸出一段話來回應。 以下從幾個面向來討論「黑盒子」議題: 透明性 Transparency 以LLM模型的開
回顧ChatGPT回答不是你要的怎麼辦?這篇文章,Chat GPT回答的結果常常不如人意,因此有個Facebook提出的技術,叫做RAG,它是提升Chat GPT回答品質的方式之一,詳細實作步驟可以參照自己做免錢Chat GPT吧。 這次我們來換個方法,今天要介紹Reinforcement Lea
當Chat GPT回答的東西不是你想要的,怎麼辦呢? 我們提供想法的思路於:ChatGPT回答不是你要的怎麼辦? 我想自己動手改善,但是我沒有GPU這項資源怎麼辦? 我們提供免費使用方式於:使用Meta釋出的模型,實作Chat GPT - Part 0 有了操作環境,但是我不知道怎麼
到目前為止,我們已經完成RAG技術的實作,在上一篇文章使用Meta釋出的模型,實作Chat GPT - Part 5中,可以看到加入RAG之後,可以讓我的大型語言模型回答更為精確。 現在我們要把它用一個畫面做呈現,而不是以程式碼來給大家看,就類似Chat GPT這樣,背後有複雜的程式運行,但是眾人
延續使用Meta釋出的模型,實作Chat GPT - Part 4,我們現在遇到一個問題:語言模型回答的資訊不是我想要的。 於是我參照ChatGPT回答不是你要的怎麼辦?,想使用低成本的技術:RAG,來改善這問題。 以下開始實作,首先引入一個重量級工具包,它叫做LangChain,這是做語言模型
回顧我們的目標是自己做一個免錢Chat GPT 自己做免錢Chat GPT吧 當中,我希望外掛一個外部知識庫,叫做RAG,來提升整體問答的品質,同時又能避免機敏資訊被Chat GPT竊取。 緣由參見 ChatGPT回答不是你要的怎麼辦? 詳細實作於 使用Meta釋出的模型,實作Chat G
人工智慧中最受歡迎的作法莫過於類神經網路,以當今最受歡迎的大型語言模型 (LLM)也不例外,然而這些持續受到爭議:黑盒子,也就是說我們不知道它內部怎麼運作,只知道給它一段話,它就會輸出一段話來回應。 以下從幾個面向來討論「黑盒子」議題: 透明性 Transparency 以LLM模型的開
回顧ChatGPT回答不是你要的怎麼辦?這篇文章,Chat GPT回答的結果常常不如人意,因此有個Facebook提出的技術,叫做RAG,它是提升Chat GPT回答品質的方式之一,詳細實作步驟可以參照自己做免錢Chat GPT吧。 這次我們來換個方法,今天要介紹Reinforcement Lea
當Chat GPT回答的東西不是你想要的,怎麼辦呢? 我們提供想法的思路於:ChatGPT回答不是你要的怎麼辦? 我想自己動手改善,但是我沒有GPU這項資源怎麼辦? 我們提供免費使用方式於:使用Meta釋出的模型,實作Chat GPT - Part 0 有了操作環境,但是我不知道怎麼
到目前為止,我們已經完成RAG技術的實作,在上一篇文章使用Meta釋出的模型,實作Chat GPT - Part 5中,可以看到加入RAG之後,可以讓我的大型語言模型回答更為精確。 現在我們要把它用一個畫面做呈現,而不是以程式碼來給大家看,就類似Chat GPT這樣,背後有複雜的程式運行,但是眾人
延續使用Meta釋出的模型,實作Chat GPT - Part 4,我們現在遇到一個問題:語言模型回答的資訊不是我想要的。 於是我參照ChatGPT回答不是你要的怎麼辦?,想使用低成本的技術:RAG,來改善這問題。 以下開始實作,首先引入一個重量級工具包,它叫做LangChain,這是做語言模型
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
零信任機制強調不信任任何實體,要求在每個資源訪問上進行驗證,打破傳統資安模型信任內部網路的假設。
Thumbnail
請記得以我的真名呼喚我 讓我能同時聽見我所有的哭泣與歡笑 讓我覺知苦痛與喜悅同為一體 請記得以我的真名呼喚我 讓我驚慟而覺醒 也讓我的悲憫心門從此敞開 請以真名呼喚我 ——節錄於一行禪師詩作,〈請以真名呼喚我〉 *戰爭從來沒有在人類歷史中絕跡,我深感哀慟。僅以此篇祈求真正的和平、
Thumbnail
Trust Wallet 拥有6000多万的用户,支持币种也多。那么我们能不能通过能量租赁的方式,仅花3TRX就在Trust Wallet上完成一笔USDT转账呢?答案是可以的,下面可以跟着我的步骤进行操作。 因为我们只测试波场链,因此我只在Trust Wallet上只留了TRX币和Tron的US
Thumbnail
今天 (2023.03.19) 筆者和 Chat GPT 進行本人有史以來的第一則對話,主題是關於 trust 和 antitrust 二個單字的討論。後來,我將網頁存到平板電腦和手機的主畫面時,它就變成看起來好像是名爲 Defining Trust 的應用程式名稱。我想這樣也好,就沒有把它改回原來
Thumbnail
參加了校友會的線上讀書會,這個月要開始讀新書,好久沒有看文學的原文書(其實非文學的原文書也很少 XD)希望本書可以重拾閱讀英文書籍的好習慣,書籍已經準備好了,這本書的相關後續更新就繼續在本文之下好了。
Thumbnail
湧入未知,保持信念勇往直前,相信你能飛翔。 Leap into the unknown. Have faith and move forward. Believe you will fly. 你的靈魂正在呼喚你信念勇氣躍入未知,你知曉已經不能再待在原地,墨守成規。
Thumbnail
Truth - 事實 Reality - 現實 Unique - 獨特的 Sense - 感知 Treasure - 珍惜
Thumbnail
你願意信任我嗎? 該學着不輕易相信人話, 尤其至親好友。 因為在乎,他們能說出最傷你心的話語; 因為在乎,他們亦能挑你最想听的告訴你。 你說我變得比較快樂了, 我說是你忽略了我求救的信息。
Thumbnail
文/陳亭妘 圖/創集團提供   農曆年末,當許多公司舉辦尾牙感謝工作夥伴,創集團選擇延伸這份感謝,今年1月底舉辦3天兩夜的旅行,邀請所有集團夥伴一同前往澳門。   許多人對創集團充滿好奇,在成立的5年間,從初創6家公司逐漸成長至20家,創集團的經營模式是什麼?是什麼力量凝聚每
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
零信任機制強調不信任任何實體,要求在每個資源訪問上進行驗證,打破傳統資安模型信任內部網路的假設。
Thumbnail
請記得以我的真名呼喚我 讓我能同時聽見我所有的哭泣與歡笑 讓我覺知苦痛與喜悅同為一體 請記得以我的真名呼喚我 讓我驚慟而覺醒 也讓我的悲憫心門從此敞開 請以真名呼喚我 ——節錄於一行禪師詩作,〈請以真名呼喚我〉 *戰爭從來沒有在人類歷史中絕跡,我深感哀慟。僅以此篇祈求真正的和平、
Thumbnail
Trust Wallet 拥有6000多万的用户,支持币种也多。那么我们能不能通过能量租赁的方式,仅花3TRX就在Trust Wallet上完成一笔USDT转账呢?答案是可以的,下面可以跟着我的步骤进行操作。 因为我们只测试波场链,因此我只在Trust Wallet上只留了TRX币和Tron的US
Thumbnail
今天 (2023.03.19) 筆者和 Chat GPT 進行本人有史以來的第一則對話,主題是關於 trust 和 antitrust 二個單字的討論。後來,我將網頁存到平板電腦和手機的主畫面時,它就變成看起來好像是名爲 Defining Trust 的應用程式名稱。我想這樣也好,就沒有把它改回原來
Thumbnail
參加了校友會的線上讀書會,這個月要開始讀新書,好久沒有看文學的原文書(其實非文學的原文書也很少 XD)希望本書可以重拾閱讀英文書籍的好習慣,書籍已經準備好了,這本書的相關後續更新就繼續在本文之下好了。
Thumbnail
湧入未知,保持信念勇往直前,相信你能飛翔。 Leap into the unknown. Have faith and move forward. Believe you will fly. 你的靈魂正在呼喚你信念勇氣躍入未知,你知曉已經不能再待在原地,墨守成規。
Thumbnail
Truth - 事實 Reality - 現實 Unique - 獨特的 Sense - 感知 Treasure - 珍惜
Thumbnail
你願意信任我嗎? 該學着不輕易相信人話, 尤其至親好友。 因為在乎,他們能說出最傷你心的話語; 因為在乎,他們亦能挑你最想听的告訴你。 你說我變得比較快樂了, 我說是你忽略了我求救的信息。
Thumbnail
文/陳亭妘 圖/創集團提供   農曆年末,當許多公司舉辦尾牙感謝工作夥伴,創集團選擇延伸這份感謝,今年1月底舉辦3天兩夜的旅行,邀請所有集團夥伴一同前往澳門。   許多人對創集團充滿好奇,在成立的5年間,從初創6家公司逐漸成長至20家,創集團的經營模式是什麼?是什麼力量凝聚每