筆記-強化式學習演算法簡介："Policy Gradient"

更新於 2024/10/09發佈於 2024/10/09閱讀時間約 3 分鐘

前言

跟上一篇文章一樣，都是看到陌生的演算法後，去搜尋資料記錄成文章。

正文

在強化式學習中，策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針，具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略，使得整個任務的回報值最大化。

策略通常表示為一個帶有參數的函數 π_𝜃(𝑠,𝑎)，其中 𝑠 是當前狀態，𝑎 是行動，𝜃 是策略的參數，Policy Gradient算法通過梯度上升法調整這些參數 𝜃，以最大化期望回報值。

以遊戲為例：首先代理人到一個遊戲畫面(狀態) 𝑠₁，決定採取第一個動作(例如左移) 𝑎_1，之後得到回饋值 𝑟₁ = 0；再來，代理人看到下一個畫面 𝑠₂，決定開火 𝑎₂，得到回饋值 𝑟₂ = 5，．．．，一直到遊戲結束。一場遊戲稱為 episode，整個遊戲過程的回報值以 𝑅 來表示，即 𝑅 = ∑^𝑇_𝑡=1 𝑟_𝑡，目的就是得到最大的 𝑅。而整個串起來，軌跡 Trajectory，就是：𝜏 = {𝑠₁,𝑎₁,𝑠₂,𝑎₂,...,𝑠_𝑇,𝑎_𝑇}。

因此可以假設得到上面這個 Trajectory 的機率為：(得到 𝑠₁ 狀態的機率) * (在 𝑠₁ 狀態下採取 𝑎₁ 這個動作的機率) * (在 𝑠₁狀態並且採取 𝑎₁的動作下與環境互動能得到 𝑠₂ 的機率)．．．，一直乘下去直到這場遊戲結束。而(得到 𝑠₁ 狀態的機率)是無法控制的，可以控制的是(在 𝑠₁ 狀態下採取 𝑎₁ 這個動作的機率)，這取決於代理人的參數 𝜃，我們就是要調整參數 𝜃 讓 𝑅 的值愈大愈好。

所以窮舉所有可能出現的 Trajectory，並且把此 Trajectory 的 𝑅 與出現此 Trajectory 的機率相乘做加總，得到採取這組 𝜃 參數所得到的期望回報值。得到期望回報值後，就可以透過梯度上升法最大化目標函數，更新參數 𝜃 進而更新模型。(數學式子在此不細講，詳見參考文章)

參考

《強化式學習：打造最強 AlphaZero 通用演算法》
李宏毅_DRL Lecture 1: Policy Gradient (Review)—shaoeChen
Policy gradient 原理說明—Darwin的AI天地
【强化学习】Policy Gradient算法详解—shura_R
ChatGPT

小結

繼續趕路，繼續留腳印(XD)，雙十國慶假日愉快！

留言

留言分享你的想法！

柴郡貓姍蒂的沙龍

49會員

34內容數

柴郡貓姍蒂的沙龍的其他內容

2025/01/04

筆記-網路文章閱讀：時間序列預測

前言最近在研究時間序列的預測，除了上課，也有在Medium上看文章，學到一些知識，除了自己做筆記記錄，也分享給大家。本篇筆記為翻譯統整：Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH，這篇Me

2025/01/04

筆記-網路文章閱讀：時間序列預測

2024/10/05

筆記-強化式學習演算法簡介："ε - greedy"、"UCB1"

前言在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》一書時，對一些沒有聽過的演算法感到陌生，基於打基礎或是增廣見聞的念頭下，上網或問ChatGPT，搜尋了一些資料，整理並紀錄而成這篇文章。正文下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban

2024/10/05

筆記-強化式學習演算法簡介："ε - greedy"、"UCB1"

2024/08/11

筆記-深度學習模型訓練：在Colab上安裝DGL

前言最近在研究GAT，在網路上看到使用torch和DGL實作的GAT模型的程式碼，就想說下載下來自己跑跑看，這篇文章：Understand Graph Attention Network。途中遇到問題，把找到的解法記錄下來，給也有一樣問題的朋友參考。正文在Colab直接使用： !p

2024/08/11

筆記-深度學習模型訓練：在Colab上安裝DGL

看更多

你可能也想看

youngchih 的沙龍

量化交易1H

量化交易是依據過去歷史資料作回測分析，找出具有交易優勢的方法，並機械化操作，在策略設計上需仰賴程式編寫者本身對金融操作的認知及技術，隨著科技的進步，我們可以利用電腦幫助人們作投資決策，將自己的金融操作方式，用很明確的方式去定義和描述，透過程式作去回測驗證，評估後確認方法具有交易優勢後，讓程式依照所設

2025/01/14

2025/01/14

一個好的策略不一定得很複雜，但必須得是有計畫的行事。對於有驚無險流來說，完整的【策略】在流程上應該包含了策略三部曲。

#美股#選擇權#終極降落傘

2024/04/13

真．選擇權策略師

終極降落傘簡介（五）

一個好的策略不一定得很複雜，但必須得是有計畫的行事。對於有驚無險流來說，完整的【策略】在流程上應該包含了策略三部曲。

#美股#選擇權#終極降落傘

2024/04/13

股市觀察家的沙龍

淺談績效報表判讀與改善

策略績效報表的判讀，有許多的方向，有人是以獲利為優先，有人是以風險為優先，二者都無法錯之分，端看投資人的喜好及策略的目的，如果開發的策略是以吸引資金或出租策略為目標，那絕大多數人都是以獲利為優先，風險的考量就成了不要太差就好，而做為自己使用時，就不一定會以獲利為主要目標，試想投資人拿自己的錢進行投資

#程式交易#MultiCharts#績效報表

2023/11/19