筆記-強化式學習演算法簡介:"Policy Gradient"

更新於 發佈於 閱讀時間約 3 分鐘

前言

跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。



正文

在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。

策略通常表示為一個帶有參數的函數 π𝜃​(𝑠,𝑎),其中 𝑠 是當前狀態,𝑎 是行動,𝜃 是策略的參數,Policy Gradient算法通過梯度上升法調整這些參數 𝜃,以最大化期望回報值。

以遊戲為例:首先代理人到一個遊戲畫面(狀態) 𝑠1,決定採取第一個動作(例如左移) 𝑎1,之後得到回饋值 𝑟1 = 0;再來,代理人看到下一個畫面 𝑠2,決定開火 𝑎2,得到回饋值 𝑟2 = 5,...,一直到遊戲結束。一場遊戲稱為 episode,整個遊戲過程的回報值以 𝑅 來表示,即 𝑅 = ∑𝑇𝑡=1 𝑟𝑡,目的就是得到最大的 𝑅。而整個串起來,軌跡 Trajectory,就是:𝜏 = {𝑠1,𝑎1,𝑠2,𝑎2,...,𝑠𝑇,𝑎𝑇}。

因此可以假設得到上面這個 Trajectory 的機率為:(得到 𝑠1 狀態的機率) * (在 𝑠1 狀態下採取 𝑎1 這個動作的機率) * (在 𝑠1 狀態並且採取 𝑎1 的動作下與環境互動能得到 𝑠2 的機率)...,一直乘下去直到這場遊戲結束。而(得到 𝑠1 狀態的機率)是無法控制的,可以控制的是(在 𝑠1 狀態下採取 𝑎1 這個動作的機率),這取決於代理人的參數 𝜃,我們就是要調整參數 𝜃 讓 𝑅 的值愈大愈好。

所以窮舉所有可能出現的 Trajectory,並且把此 Trajectory 的 𝑅 與出現此 Trajectory 的機率相乘做加總,得到採取這組 𝜃 參數所得到的期望回報值。得到期望回報值後,就可以透過梯度上升法最大化目標函數,更新參數 𝜃 進而更新模型。(數學式子在此不細講,詳見參考文章)



參考



小結

繼續趕路,繼續留腳印(XD),雙十國慶假日愉快!



留言
avatar-img
留言分享你的想法!
avatar-img
柴郡貓姍蒂的沙龍
48會員
25內容數
2025/01/04
前言 最近在研究時間序列的預測,除了上課,也有在Medium上看文章,學到一些知識,除了自己做筆記記錄,也分享給大家。本篇筆記為翻譯統整:Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH,這篇Me
2025/01/04
前言 最近在研究時間序列的預測,除了上課,也有在Medium上看文章,學到一些知識,除了自己做筆記記錄,也分享給大家。本篇筆記為翻譯統整:Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH,這篇Me
2024/10/05
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。 正文 下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban
2024/10/05
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。 正文 下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban
2024/08/11
前言 最近在研究GAT,在網路上看到使用torch和DGL實作的GAT模型的程式碼,就想說下載下來自己跑跑看,這篇文章:Understand Graph Attention Network。途中遇到問題,把找到的解法記錄下來,給也有一樣問題的朋友參考。 正文 在Colab直接使用: !p
2024/08/11
前言 最近在研究GAT,在網路上看到使用torch和DGL實作的GAT模型的程式碼,就想說下載下來自己跑跑看,這篇文章:Understand Graph Attention Network。途中遇到問題,把找到的解法記錄下來,給也有一樣問題的朋友參考。 正文 在Colab直接使用: !p
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
量化交易是依據過去歷史資料作回測分析,找出具有交易優勢的方法,並機械化操作,在策略設計上需仰賴程式編寫者本身對金融操作的認知及技術,隨著科技的進步,我們可以利用電腦幫助人們作投資決策,將自己的金融操作方式,用很明確的方式去定義和描述,透過程式作去回測驗證,評估後確認方法具有交易優勢後,讓程式依照所設
Thumbnail
量化交易是依據過去歷史資料作回測分析,找出具有交易優勢的方法,並機械化操作,在策略設計上需仰賴程式編寫者本身對金融操作的認知及技術,隨著科技的進步,我們可以利用電腦幫助人們作投資決策,將自己的金融操作方式,用很明確的方式去定義和描述,透過程式作去回測驗證,評估後確認方法具有交易優勢後,讓程式依照所設
Thumbnail
一個好的策略不一定得很複雜,但必須得是有計畫的行事。 對於有驚無險流來說,完整的【策略】在流程上應該包含了策略三部曲。
Thumbnail
一個好的策略不一定得很複雜,但必須得是有計畫的行事。 對於有驚無險流來說,完整的【策略】在流程上應該包含了策略三部曲。
Thumbnail
策略績效報表的判讀,有許多的方向,有人是以獲利為優先,有人是以風險為優先,二者都無法錯之分,端看投資人的喜好及策略的目的,如果開發的策略是以吸引資金或出租策略為目標,那絕大多數人都是以獲利為優先,風險的考量就成了不要太差就好,而做為自己使用時,就不一定會以獲利為主要目標,試想投資人拿自己的錢進行投資
Thumbnail
策略績效報表的判讀,有許多的方向,有人是以獲利為優先,有人是以風險為優先,二者都無法錯之分,端看投資人的喜好及策略的目的,如果開發的策略是以吸引資金或出租策略為目標,那絕大多數人都是以獲利為優先,風險的考量就成了不要太差就好,而做為自己使用時,就不一定會以獲利為主要目標,試想投資人拿自己的錢進行投資
Thumbnail
一、前言 上一堂提到,如何透過加入「對策略有幫助的因子(濾網)」,讓策略報酬增加,而這堂課則是當你執行一段時間後,知識量又增長了,於是就可以更增加策略的報酬,首先以下就是我改進的成果,提供大家參考,大家可以針對參數在修正,找出最適合你的策略。 二、最近學到的因子 (1)主力做多成本線:最近,我
Thumbnail
一、前言 上一堂提到,如何透過加入「對策略有幫助的因子(濾網)」,讓策略報酬增加,而這堂課則是當你執行一段時間後,知識量又增長了,於是就可以更增加策略的報酬,首先以下就是我改進的成果,提供大家參考,大家可以針對參數在修正,找出最適合你的策略。 二、最近學到的因子 (1)主力做多成本線:最近,我
Thumbnail
「謀而後動」是一種智慧的策略,強調在採取行動之前需要充分的計劃和思考。這種方法有助於減少風險,提高成功的機會,並確保您的行動是有條理和有效的。請記住以下關鍵點: 1. **明確的目標:** 在開始之前,確保您清楚了解您的目標和所要達成的結果是什麼。 2. **資訊收集:** 收集所有必要
Thumbnail
「謀而後動」是一種智慧的策略,強調在採取行動之前需要充分的計劃和思考。這種方法有助於減少風險,提高成功的機會,並確保您的行動是有條理和有效的。請記住以下關鍵點: 1. **明確的目標:** 在開始之前,確保您清楚了解您的目標和所要達成的結果是什麼。 2. **資訊收集:** 收集所有必要
Thumbnail
為什麼我們還要進行策略思考?我認為是為了「過濾」選項、提出「選擇」並做出「承諾」才算是完成一個策略思考。重點不在選擇,而在於承諾;也唯有經由承諾所產生的策略,才會是他人難以複製的策略。比起理性的計算,策略更需要一種承諾的力量。
Thumbnail
為什麼我們還要進行策略思考?我認為是為了「過濾」選項、提出「選擇」並做出「承諾」才算是完成一個策略思考。重點不在選擇,而在於承諾;也唯有經由承諾所產生的策略,才會是他人難以複製的策略。比起理性的計算,策略更需要一種承諾的力量。
Thumbnail
如果你在一場撲克牌比賽中玩了一會兒,仍然不知道誰是牌桌上的菜鳥,趕快起身吧,你就是那個菜鳥。 這應該是《好策略的關鍵》第1~7章節裡,最讓我有感的一句話!! 貫穿策略執行的三部曲:診斷問題、克服關鍵點、採取連貫行動 如果你喜歡《好策略、壞策略》,這是作者睽違10年後的新著作。
Thumbnail
如果你在一場撲克牌比賽中玩了一會兒,仍然不知道誰是牌桌上的菜鳥,趕快起身吧,你就是那個菜鳥。 這應該是《好策略的關鍵》第1~7章節裡,最讓我有感的一句話!! 貫穿策略執行的三部曲:診斷問題、克服關鍵點、採取連貫行動 如果你喜歡《好策略、壞策略》,這是作者睽違10年後的新著作。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News