後悔分析

含有「後悔分析」共 3 篇內容

全部內容

發佈日期由新至舊

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，《Improved Algorithms for Linear Stochastic Bandits》[2]。今天主要想討論在第11頁的Lemma 8， Yasin 展示了如何構造「超鞅 S

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，《Improved Algorithms for Linear Stochastic Bandits》[2]。在15頁的順間後悔分析中，我們在B001講到上界已經替換為「強盜算法行

將「未知的"真實強盜參數"與未知的"最優行動"」替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。於是，在瞬間後悔定義中用到的未知量，都能轉化為強盜算法設計就能知道的已知量，那麼分析就能繼續下去。這個思維在做理論研究的時候相當重要，