本文接續上篇直覺式強化學習教學，著重於解釋強化學習中常見的探索和竭盡難題，以及如何利用不同的方法來進行策略函式的學習，並與策略梯度做比較。同時，介紹 A2CS 所使用的損失函式，以及應用這個損失函示於深度學習時會遇到的訓練難題。最後，總結強化學習和深度學習的未來方向，以及本系列文章所企圖達到的目標。

教育學習

職場產業

閱讀書評

翻滾吧！駭客女孩！

<p>專為年輕的女孩設計的科學／資訊科技寫作計畫，希望讓每位女孩在體脂肪、青春痘與暗戀對象之外，還能找到新的生活樂趣。</p>