PolicyGradient
含有「PolicyGradient」共 1 篇內容
全部內容
發佈日期由新至舊
柴郡貓姍蒂的沙龍
2024/10/09
筆記-強化式學習演算法簡介:"Policy Gradient"
前言 跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。 正文 在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。
#
PolicyGradient
#
AI
#
人工智慧
21
留言