Trust Region Policy Optimization教學 - Part 1

LearnAI

2024/05/10閱讀時間約 1 分鐘

首先定義符號：

因此我們有

其中

再定義State Avtion Value.Function、Value Function和Advantage Function分別為：

接著我定義

此外觀察上述定義，能有

因此我有以下展開

這時回顧

因此我有

結合之後得到

移項之後得到

接著我把最後一項的期望值展開

稍微調整一下位置

然後我定義Discounted Visit Probability

因此我有

這告訴我們一件重要的事情：如果我要判斷新的Policy是否有比較好，只須要判斷對所有狀態下，如果有以下情況的話

則新的Policy會較優。

這同時也說明，更新策略為

此外要如何判斷已經達到最佳的Policy了呢？

只需要確保在新的Policy之下，其能達到的狀態和所有能採取的動作，都不再能造成正的

則說明已經達到最佳Policy

Learn AI 不 BI自然語言處理相關

Learn AI 不 BI

131會員

307Content count

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言0

查看全部

發表第一個留言支持創作者！

Learn AI 不 BI 的其他內容

使用Meta釋出的模型，實作Chat GPT - 補充

回顧我們的目標是自己做一個免錢Chat GPT 自己做免錢Chat GPT吧當中，我希望外掛一個外部知識庫，叫做RAG，來提升整體問答的品質，同時又能避免機敏資訊被Chat GPT竊取。緣由參見 ChatGPT回答不是你要的怎麼辦？詳細實作於使用Meta釋出的模型，實作Chat G

#自然語言處理 #自然語言處理技術 #NLP

Chat GPT是黑盒子嗎？

人工智慧中最受歡迎的作法莫過於類神經網路，以當今最受歡迎的大型語言模型 (LLM)也不例外，然而這些持續受到爭議：黑盒子，也就是說我們不知道它內部怎麼運作，只知道給它一段話，它就會輸出一段話來回應。以下從幾個面向來討論「黑盒子」議題：透明性 Transparency 以LLM模型的開

#自然語言處理 #自然語言處理技術 #NLP

Chat GPT - 用RLHF做Fine Tuning

回顧ChatGPT回答不是你要的怎麼辦？這篇文章，Chat GPT回答的結果常常不如人意，因此有個Facebook提出的技術，叫做RAG，它是提升Chat GPT回答品質的方式之一，詳細實作步驟可以參照自己做免錢Chat GPT吧。這次我們來換個方法，今天要介紹Reinforcement Lea

#自然語言處理 #自然語言處理技術 #NLP

自己做免錢Chat GPT吧

當Chat GPT回答的東西不是你想要的，怎麼辦呢？我們提供想法的思路於：ChatGPT回答不是你要的怎麼辦？我想自己動手改善，但是我沒有GPU這項資源怎麼辦？我們提供免費使用方式於：使用Meta釋出的模型，實作Chat GPT - Part 0 有了操作環境，但是我不知道怎麼

#自然語言處理 #自然語言處理技術 #NLP

使用Meta釋出的模型，實作Chat GPT - Part 6

到目前為止，我們已經完成RAG技術的實作，在上一篇文章使用Meta釋出的模型，實作Chat GPT - Part 5中，可以看到加入RAG之後，可以讓我的大型語言模型回答更為精確。現在我們要把它用一個畫面做呈現，而不是以程式碼來給大家看，就類似Chat GPT這樣，背後有複雜的程式運行，但是眾人

#自然語言處理 #自然語言處理技術 #NLP

使用Meta釋出的模型，實作Chat GPT - Part 5

延續使用Meta釋出的模型，實作Chat GPT - Part 4，我們現在遇到一個問題：語言模型回答的資訊不是我想要的。於是我參照ChatGPT回答不是你要的怎麼辦？，想使用低成本的技術：RAG，來改善這問題。以下開始實作，首先引入一個重量級工具包，它叫做LangChain，這是做語言模型

#自然語言處理 #自然語言處理技術 #NLP

Fed 9月會議：傳達「不想要落後給曲線」的正向信號，著手管理市場的衰退預期

重點摘要： 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期，但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱，經濟復甦的時點或是 1Q25 季底附近

#聯準會 #Fed #降息

方格子 vocus 官方沙龍

2024/08/27

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎？新版式整體視覺上「更加凸顯圖片」，為了搭配這次的更新，我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務，還有機會獲得富士即可拍，讓你的美好回憶都可以用即可拍珍藏！

#相簿裡最捨不得刪的照片

안녕～陽光普照的一天 🌞

2024/01/30

零信任 (Zero Trust) 資安

零信任機制強調不信任任何實體，要求在每個資源訪問上進行驗證，打破傳統資安模型信任內部網路的假設。

#資訊安全 #零信任

光仙療癒空間的沙龍

2023/10/10

In Karma We Trust

請記得以我的真名呼喚我讓我能同時聽見我所有的哭泣與歡笑讓我覺知苦痛與喜悅同為一體請記得以我的真名呼喚我讓我驚慟而覺醒也讓我的悲憫心門從此敞開請以真名呼喚我 ——節錄於一行禪師詩作，〈請以真名呼喚我〉＊戰爭從來沒有在人類歷史中絕跡，我深感哀慟。僅以此篇祈求真正的和平、

Free67波场能量自助租赁的沙龍

2023/08/13

【实测】在Trust Wallet上通过波场能量租赁仅花3TRX作为手续费完成一笔波场链TRC20-USDT转账

Trust Wallet 拥有6000多万的用户，支持币种也多。那么我们能不能通过能量租赁的方式，仅花3TRX就在Trust Wallet上完成一笔USDT转账呢？答案是可以的，下面可以跟着我的步骤进行操作。因为我们只测试波场链，因此我只在Trust Wallet上只留了TRX币和Tron的US

#trustwallet #trust钱包 #usdt

羅聖爾的沙龍 / LS. Salon / LSSL

2023/03/21

trust & antitrust - 我和 Chat GPT 的第一則對話

今天 (2023.03.19) 筆者和 Chat GPT 進行本人有史以來的第一則對話，主題是關於 trust 和 antitrust 二個單字的討論。後來，我將網頁存到平板電腦和手機的主畫面時，它就變成看起來好像是名爲 Defining Trust 的應用程式名稱。我想這樣也好，就沒有把它改回原來

#ChatGPT #trust #antitrust

711911的沙龍

2023/03/07