前言

跟上一篇文章一樣，都是看到陌生的演算法後，去搜尋資料記錄成文章。



正文

在強化式學習中，策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針，具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略，使得整個任務的回報值最大化。

學習

職場

親子與教育

以行動支持創作者！付費即可解鎖

PolicyGradient