首先定義符號:
因此我們有
其中
再定義State Avtion Value.Function、Value Function和Advantage Function分別為:
接著我定義
此外觀察上述定義,能有
因此我有以下展開
這時回顧
因此我有
結合之後得到
移項之後得到
接著我把最後一項的期望值展開
稍微調整一下位置
然後我定義Discounted Visit Probability
因此我有
這告訴我們一件重要的事情:如果我要判斷新的Policy是否有比較好,只須要判斷對所有狀態下,如果有以下情況的話
則新的Policy會較優。
這同時也說明,更新策略為
此外要如何判斷已經達到最佳的Policy了呢?
只需要確保在新的Policy之下,其能達到的狀態和所有能採取的動作,都不再能造成正的
則說明已經達到最佳Policy