2024-05-10|閱讀時間 ‧ 約 21 分鐘

Trust Region Policy Optimization教學 - Part 1

首先定義符號:

raw-image

因此我們有​

其中

再定義State Avtion Value.Function、Value Function和Advantage Function分別為:

接著我定義

此外觀察上述定義,能有

因此我有以下展開

這時回顧

因此我有

結合之後得到

移項之後得到

接著我把最後一項的期望值展開

稍微調整一下位置

然後我定義Discounted Visit Probability

因此我有

這告訴我們一件重要的事情:如果我要判斷新的Policy是否有比較好,只須要判斷對所有狀態下,如果有以下情況的話

則新的Policy會較優。

這同時也說明,更新策略為

此外要如何判斷已經達到最佳的Policy了呢?

只需要確保在新的Policy之下,其能達到的狀態和所有能採取的動作,都不再能造成正的

則說明已經達到最佳Policy

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.