Trust Region Policy Optimization教學 - Part 1

閱讀時間約 1 分鐘

首先定義符號:

raw-image

因此我們有​

raw-image

其中

raw-image

再定義State Avtion Value.Function、Value Function和Advantage Function分別為:

raw-image

接著我定義

raw-image

此外觀察上述定義,能有

raw-image

因此我有以下展開

raw-image

這時回顧

raw-image

因此我有

raw-image

結合之後得到

raw-image

移項之後得到

raw-image

接著我把最後一項的期望值展開

raw-image

稍微調整一下位置

raw-image

然後我定義Discounted Visit Probability

raw-image

因此我有

raw-image

這告訴我們一件重要的事情:如果我要判斷新的Policy是否有比較好,只須要判斷對所有狀態下,如果有以下情況的話

raw-image

則新的Policy會較優。

這同時也說明,更新策略為

raw-image

此外要如何判斷已經達到最佳的Policy了呢?

只需要確保在新的Policy之下,其能達到的狀態和所有能採取的動作,都不再能造成正的

raw-image

則說明已經達到最佳Policy

avatar-img
170會員
452內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Learn AI 不 BI 的其他內容
回顧我們的目標是自己做一個免錢Chat GPT 自己做免錢Chat GPT吧 當中,我希望外掛一個外部知識庫,叫做RAG,來提升整體問答的品質,同時又能避免機敏資訊被Chat GPT竊取。 緣由參見 ChatGPT回答不是你要的怎麼辦? 詳細實作於 使用Meta釋出的模型,實作Chat G
人工智慧中最受歡迎的作法莫過於類神經網路,以當今最受歡迎的大型語言模型 (LLM)也不例外,然而這些持續受到爭議:黑盒子,也就是說我們不知道它內部怎麼運作,只知道給它一段話,它就會輸出一段話來回應。 以下從幾個面向來討論「黑盒子」議題: 透明性 Transparency 以LLM模型的開
回顧ChatGPT回答不是你要的怎麼辦?這篇文章,Chat GPT回答的結果常常不如人意,因此有個Facebook提出的技術,叫做RAG,它是提升Chat GPT回答品質的方式之一,詳細實作步驟可以參照自己做免錢Chat GPT吧。 這次我們來換個方法,今天要介紹Reinforcement Lea
當Chat GPT回答的東西不是你想要的,怎麼辦呢? 我們提供想法的思路於:ChatGPT回答不是你要的怎麼辦? 我想自己動手改善,但是我沒有GPU這項資源怎麼辦? 我們提供免費使用方式於:使用Meta釋出的模型,實作Chat GPT - Part 0 有了操作環境,但是我不知道怎麼
到目前為止,我們已經完成RAG技術的實作,在上一篇文章使用Meta釋出的模型,實作Chat GPT - Part 5中,可以看到加入RAG之後,可以讓我的大型語言模型回答更為精確。 現在我們要把它用一個畫面做呈現,而不是以程式碼來給大家看,就類似Chat GPT這樣,背後有複雜的程式運行,但是眾人
延續使用Meta釋出的模型,實作Chat GPT - Part 4,我們現在遇到一個問題:語言模型回答的資訊不是我想要的。 於是我參照ChatGPT回答不是你要的怎麼辦?,想使用低成本的技術:RAG,來改善這問題。 以下開始實作,首先引入一個重量級工具包,它叫做LangChain,這是做語言模型
回顧我們的目標是自己做一個免錢Chat GPT 自己做免錢Chat GPT吧 當中,我希望外掛一個外部知識庫,叫做RAG,來提升整體問答的品質,同時又能避免機敏資訊被Chat GPT竊取。 緣由參見 ChatGPT回答不是你要的怎麼辦? 詳細實作於 使用Meta釋出的模型,實作Chat G
人工智慧中最受歡迎的作法莫過於類神經網路,以當今最受歡迎的大型語言模型 (LLM)也不例外,然而這些持續受到爭議:黑盒子,也就是說我們不知道它內部怎麼運作,只知道給它一段話,它就會輸出一段話來回應。 以下從幾個面向來討論「黑盒子」議題: 透明性 Transparency 以LLM模型的開
回顧ChatGPT回答不是你要的怎麼辦?這篇文章,Chat GPT回答的結果常常不如人意,因此有個Facebook提出的技術,叫做RAG,它是提升Chat GPT回答品質的方式之一,詳細實作步驟可以參照自己做免錢Chat GPT吧。 這次我們來換個方法,今天要介紹Reinforcement Lea
當Chat GPT回答的東西不是你想要的,怎麼辦呢? 我們提供想法的思路於:ChatGPT回答不是你要的怎麼辦? 我想自己動手改善,但是我沒有GPU這項資源怎麼辦? 我們提供免費使用方式於:使用Meta釋出的模型,實作Chat GPT - Part 0 有了操作環境,但是我不知道怎麼
到目前為止,我們已經完成RAG技術的實作,在上一篇文章使用Meta釋出的模型,實作Chat GPT - Part 5中,可以看到加入RAG之後,可以讓我的大型語言模型回答更為精確。 現在我們要把它用一個畫面做呈現,而不是以程式碼來給大家看,就類似Chat GPT這樣,背後有複雜的程式運行,但是眾人
延續使用Meta釋出的模型,實作Chat GPT - Part 4,我們現在遇到一個問題:語言模型回答的資訊不是我想要的。 於是我參照ChatGPT回答不是你要的怎麼辦?,想使用低成本的技術:RAG,來改善這問題。 以下開始實作,首先引入一個重量級工具包,它叫做LangChain,這是做語言模型
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
主要來講宣告函式跟箭頭函式 : 宣告函式(Function Declaration) 語法: function functionName(parameters) { return result; } 特點: 使用 function 關鍵字 函式名稱是必需的 存在函式
Thumbnail
這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估,並提出了四個不同像限的專案特性。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
這是一篇討論「日常使用」詞語意義與定義的文章,從多個角度探討了定義的來源、日常使用詞語的定義及解釋力等議題。文章中提到了詞語定義的主觀性,以及透過不同詮釋方式帶來的影響。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
主要來講宣告函式跟箭頭函式 : 宣告函式(Function Declaration) 語法: function functionName(parameters) { return result; } 特點: 使用 function 關鍵字 函式名稱是必需的 存在函式
Thumbnail
這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估,並提出了四個不同像限的專案特性。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
這是一篇討論「日常使用」詞語意義與定義的文章,從多個角度探討了定義的來源、日常使用詞語的定義及解釋力等議題。文章中提到了詞語定義的主觀性,以及透過不同詮釋方式帶來的影響。