Trust Region Policy Optimization教學 - Part 1

LearnAI

發佈於自然語言處理相關

更新於 2024/05/13發佈於 2024/05/10閱讀時間約 1 分鐘

首先定義符號：

因此我們有

其中

再定義State Avtion Value.Function、Value Function和Advantage Function分別為：

接著我定義

此外觀察上述定義，能有

因此我有以下展開

這時回顧

因此我有

結合之後得到

移項之後得到

接著我把最後一項的期望值展開

稍微調整一下位置

然後我定義Discounted Visit Probability

因此我有

這告訴我們一件重要的事情：如果我要判斷新的Policy是否有比較好，只須要判斷對所有狀態下，如果有以下情況的話

則新的Policy會較優。

這同時也說明，更新策略為

此外要如何判斷已經達到最佳的Policy了呢？

只需要確保在新的Policy之下，其能達到的狀態和所有能採取的動作，都不再能造成正的

則說明已經達到最佳Policy

Learn AI 不 BI自然語言處理相關

Learn AI 不 BI

194會員

509內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

Learn AI 不 BI 的其他內容

使用Meta釋出的模型，實作Chat GPT - 補充

回顧我們的目標是自己做一個免錢Chat GPT 自己做免錢Chat GPT吧當中，我希望外掛一個外部知識庫，叫做RAG，來提升整體問答的品質，同時又能避免機敏資訊被Chat GPT竊取。緣由參見 ChatGPT回答不是你要的怎麼辦？詳細實作於使用Meta釋出的模型，實作Chat G

#自然語言處理 #自然語言處理技術 #NLP

Chat GPT是黑盒子嗎？

人工智慧中最受歡迎的作法莫過於類神經網路，以當今最受歡迎的大型語言模型 (LLM)也不例外，然而這些持續受到爭議：黑盒子，也就是說我們不知道它內部怎麼運作，只知道給它一段話，它就會輸出一段話來回應。以下從幾個面向來討論「黑盒子」議題：透明性 Transparency 以LLM模型的開

#自然語言處理 #自然語言處理技術 #NLP

Chat GPT - 用RLHF做Fine Tuning

回顧ChatGPT回答不是你要的怎麼辦？這篇文章，Chat GPT回答的結果常常不如人意，因此有個Facebook提出的技術，叫做RAG，它是提升Chat GPT回答品質的方式之一，詳細實作步驟可以參照自己做免錢Chat GPT吧。這次我們來換個方法，今天要介紹Reinforcement Lea

#自然語言處理 #自然語言處理技術 #NLP

自己做免錢Chat GPT吧

當Chat GPT回答的東西不是你想要的，怎麼辦呢？我們提供想法的思路於：ChatGPT回答不是你要的怎麼辦？我想自己動手改善，但是我沒有GPU這項資源怎麼辦？我們提供免費使用方式於：使用Meta釋出的模型，實作Chat GPT - Part 0 有了操作環境，但是我不知道怎麼

#自然語言處理 #自然語言處理技術 #NLP

使用Meta釋出的模型，實作Chat GPT - Part 6

到目前為止，我們已經完成RAG技術的實作，在上一篇文章使用Meta釋出的模型，實作Chat GPT - Part 5中，可以看到加入RAG之後，可以讓我的大型語言模型回答更為精確。現在我們要把它用一個畫面做呈現，而不是以程式碼來給大家看，就類似Chat GPT這樣，背後有複雜的程式運行，但是眾人

#自然語言處理 #自然語言處理技術 #NLP

使用Meta釋出的模型，實作Chat GPT - Part 5

延續使用Meta釋出的模型，實作Chat GPT - Part 4，我們現在遇到一個問題：語言模型回答的資訊不是我想要的。於是我參照ChatGPT回答不是你要的怎麼辦？，想使用低成本的技術：RAG，來改善這問題。以下開始實作，首先引入一個重量級工具包，它叫做LangChain，這是做語言模型

#自然語言處理 #自然語言處理技術 #NLP

使用Meta釋出的模型，實作Chat GPT - 補充

#自然語言處理 #自然語言處理技術 #NLP

Chat GPT是黑盒子嗎？

#自然語言處理 #自然語言處理技術 #NLP

Chat GPT - 用RLHF做Fine Tuning

#自然語言處理 #自然語言處理技術 #NLP

自己做免錢Chat GPT吧

#自然語言處理 #自然語言處理技術 #NLP

使用Meta釋出的模型，實作Chat GPT - Part 6

#自然語言處理 #自然語言處理技術 #NLP

使用Meta釋出的模型，實作Chat GPT - Part 5

#自然語言處理 #自然語言處理技術 #NLP

你可能也想看

主要來講宣告函式跟箭頭函式 : 宣告函式（Function Declaration）語法： function functionName(parameters) { return result; } 特點：使用 function 關鍵字函式名稱是必需的存在函式

威利財經生活隨筆的沙龍

2024/07/12

外生給定規則是什麼?00909 國泰全球數位支付服務 ETF公開說明書研究(下)，數位支付行業分類，投資風險有哪些

上篇內容討論到篩選機制ARTIS算法，這次將剩下的篩選機制與權重計算方式看完，做優點缺點比較。

#ARTIS®分數計算 #國際清算銀行 #數位支付服務行業分類

Value

這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估，並提出了四個不同像限的專案特性。

#專案 #軟體 #開發

(超越)自我實現的歷程

2024/03/11

如何用機率思維找到核心能力，提高勝算關鍵

瞭解人生決策過程中的關鍵能力，包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力，同時改變思維模式和成功經營模式，挑戰自我，在市場競逐中找到關鍵的能力。

#核心 #機率 #人生

來自那個光

2024/02/12

一.日常用語的定義 I 你說什麼!!

這是一篇討論「日常使用」詞語意義與定義的文章，從多個角度探討了定義的來源、日常使用詞語的定義及解釋力等議題。文章中提到了詞語定義的主觀性，以及透過不同詮釋方式帶來的影響。

#微理論 #語言學 #定義

《專家事業研究室》沙龍

2024/01/15

【有效設定 OKR，避免目標侵蝕惡性循環】

外生給定規則是什麼?00909 國泰全球數位支付服務 ETF公開說明書研究(下)，數位支付行業分類，投資風險有哪些

上篇內容討論到篩選機制ARTIS算法，這次將剩下的篩選機制與權重計算方式看完，做優點缺點比較。

#ARTIS®分數計算 #國際清算銀行 #數位支付服務行業分類

Value

這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估，並提出了四個不同像限的專案特性。

#專案 #軟體 #開發

#核心 #機率 #人生

【有效設定 OKR，避免目標侵蝕惡性循環】

#啟發隨想 #年度目標 #關鍵結果