後悔分析
含有「後悔分析」共 3 篇內容
全部內容
發佈日期由新至舊
王啟樺的沙龍
2024/07/22
Bandit 004|如何使用鞅集中不等式分析強盜演算法?
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 今天主要想討論在第11頁的Lemma 8, Yasin 展示了如何構造「超鞅 S
#
強盜演算法
#
鞅論
#
數學
喜歡
留言
王啟樺的沙龍
2024/07/15
Bandit 002|信心集合在強盜算法中有什麼作用?
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
#
強盜演算法
#
信心集合
#
信賴區間
7
留言
王啟樺的沙龍
2024/07/14
Bandit 001|如何將未知量轉化為已知量?
將「未知的"真實強盜參數"與未知的"最優行動"」 替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。 於是,在瞬間後悔定義中用到的未知量, 都能轉化為強盜算法設計就能知道的已知量, 那麼分析就能繼續下去。 這個思維在做理論研究的時候相當重要,
#
強盜演算法
#
後悔分析
#
電腦科學
7
留言