筆記-強化式學習演算法簡介:"Policy Gradient"

閱讀時間約 3 分鐘

前言

跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。



正文

在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。

策略通常表示為一個帶有參數的函數 π𝜃​(𝑠,𝑎),其中 𝑠 是當前狀態,𝑎 是行動,𝜃 是策略的參數,Policy Gradient算法通過梯度上升法調整這些參數 𝜃,以最大化期望回報值。

以遊戲為例:首先代理人到一個遊戲畫面(狀態) 𝑠1,決定採取第一個動作(例如左移) 𝑎1,之後得到回饋值 𝑟1 = 0;再來,代理人看到下一個畫面 𝑠2,決定開火 𝑎2,得到回饋值 𝑟2 = 5,...,一直到遊戲結束。一場遊戲稱為 episode,整個遊戲過程的回報值以 𝑅 來表示,即 𝑅 = ∑𝑇𝑡=1 𝑟𝑡,目的就是得到最大的 𝑅。而整個串起來,軌跡 Trajectory,就是:𝜏 = {𝑠1,𝑎1,𝑠2,𝑎2,...,𝑠𝑇,𝑎𝑇}。

因此可以假設得到上面這個 Trajectory 的機率為:(得到 𝑠1 狀態的機率) * (在 𝑠1 狀態下採取 𝑎1 這個動作的機率) * (在 𝑠1 狀態並且採取 𝑎1 的動作下與環境互動能得到 𝑠2 的機率)...,一直乘下去直到這場遊戲結束。而(得到 𝑠1 狀態的機率)是無法控制的,可以控制的是(在 𝑠1 狀態下採取 𝑎1 這個動作的機率),這取決於代理人的參數 𝜃,我們就是要調整參數 𝜃 讓 𝑅 的值愈大愈好。

所以窮舉所有可能出現的 Trajectory,並且把此 Trajectory 的 𝑅 與出現此 Trajectory 的機率相乘做加總,得到採取這組 𝜃 參數所得到的期望回報值。得到期望回報值後,就可以透過梯度上升法最大化目標函數,更新參數 𝜃 進而更新模型。(數學式子在此不細講,詳見參考文章)



參考



小結

繼續趕路,繼續留腳印(XD),雙十國慶假日愉快!



留言0
查看全部
avatar-img
發表第一個留言支持創作者!
柴郡貓姍蒂的沙龍 的其他內容
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。 正文 下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban
前言 最近在研究GAT,在網路上看到使用torch和DGL實作的GAT模型的程式碼,就想說下載下來自己跑跑看,這篇文章:Understand Graph Attention Network。途中遇到問題,把找到的解法記錄下來,給也有一樣問題的朋友參考。 正文 在Colab直接使用: !p
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
前言 承上一篇筆記文章,繼續閱讀推薦的第二篇論文:Identity Mappings in Deep Residual Networks—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。也是一樣的發表者,內容是對他們之前發表的Deep Residual
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。 正文 下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban
前言 最近在研究GAT,在網路上看到使用torch和DGL實作的GAT模型的程式碼,就想說下載下來自己跑跑看,這篇文章:Understand Graph Attention Network。途中遇到問題,把找到的解法記錄下來,給也有一樣問題的朋友參考。 正文 在Colab直接使用: !p
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
前言 承上一篇筆記文章,繼續閱讀推薦的第二篇論文:Identity Mappings in Deep Residual Networks—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。也是一樣的發表者,內容是對他們之前發表的Deep Residual
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
你可能也想看
Google News 追蹤
「權變 (Contingency),簡單說是見機行事,要懂得因時因地,有所區分地解決問題。」 「權變領導,就是要在領導行為,追隨者特徵,環境,之間找到一個平衡點,以達到有效影響他人,完成組織任務的目的。」 這兩句話節錄自寧向東的清華管理學課的內容[1],引發我的思考。 Contin
Thumbnail
書中介紹策略顧問的幾個核心思考脈絡與方法,透過書中所教的思考脈絡與問題解決三大支柱:批判思考、邏輯思考、假說思考,掌握問題20%的關鍵,一一拆解並解決至少80%的問題!
Thumbnail
這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估,並提出了四個不同像限的專案特性。
在寫這篇文的時候…回頭看了自己之前的文章… 2024/04/12也寫過類似的標題… 說實話…經過了幾個月…又有了新的體悟…  發現…同一種課題… 過了一關之後…還會有…升級版的挑戰… 升級版的挑戰…是什麼? 你應該差不多猜到了… 就是…我~打~臉~了!!! 04/12那篇文的Tips…在
Thumbnail
這篇文章描述了作者從兼職開發轉為全職開發的過程,並分享了從混進學界指日可待的積極態度。作者也提及自己在專案製作與個人生活上的矛盾與感想,最後分享了專案管理和敏捷開發相關的文章與影片。
無論學涯規劃、職涯規劃或生涯規劃,層級是個人、團體或企業,身處在哪個產業、哪個部門,都必須學會「制定目標」。 目標就像是地圖一樣,指引我們行走的方向。許多人在做決策時習慣性採取「貪婪演算法」的方式,總是選擇眼下最好的選項,最終陷入短線思維的陷阱。當下看似為最佳解,從長遠來看對整個人生或者對整個企業
「權變 (Contingency),簡單說是見機行事,要懂得因時因地,有所區分地解決問題。」 「權變領導,就是要在領導行為,追隨者特徵,環境,之間找到一個平衡點,以達到有效影響他人,完成組織任務的目的。」 這兩句話節錄自寧向東的清華管理學課的內容[1],引發我的思考。 Contin
Thumbnail
書中介紹策略顧問的幾個核心思考脈絡與方法,透過書中所教的思考脈絡與問題解決三大支柱:批判思考、邏輯思考、假說思考,掌握問題20%的關鍵,一一拆解並解決至少80%的問題!
Thumbnail
這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估,並提出了四個不同像限的專案特性。
在寫這篇文的時候…回頭看了自己之前的文章… 2024/04/12也寫過類似的標題… 說實話…經過了幾個月…又有了新的體悟…  發現…同一種課題… 過了一關之後…還會有…升級版的挑戰… 升級版的挑戰…是什麼? 你應該差不多猜到了… 就是…我~打~臉~了!!! 04/12那篇文的Tips…在
Thumbnail
這篇文章描述了作者從兼職開發轉為全職開發的過程,並分享了從混進學界指日可待的積極態度。作者也提及自己在專案製作與個人生活上的矛盾與感想,最後分享了專案管理和敏捷開發相關的文章與影片。
無論學涯規劃、職涯規劃或生涯規劃,層級是個人、團體或企業,身處在哪個產業、哪個部門,都必須學會「制定目標」。 目標就像是地圖一樣,指引我們行走的方向。許多人在做決策時習慣性採取「貪婪演算法」的方式,總是選擇眼下最好的選項,最終陷入短線思維的陷阱。當下看似為最佳解,從長遠來看對整個人生或者對整個企業