Bandit 004｜如何使用鞅集中不等式分析強盜演算法？

王啟樺

更新於 2024/07/22發佈於 2024/07/22閱讀時間約 1 分鐘

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，

《Improved Algorithms for Linear Stochastic Bandits》[2]。

今天主要想討論在第11頁的Lemma 8，

Yasin 展示了如何構造「超鞅 Supermartingale」，

來進一步使用「鞅集中不等式 Martingale Concentration Inequality」做分析。

直觀看，行動特徵向量是d維度的，而鞅原則上都是1維度的，

兩者如何能結合呢？

這一定有某個地方，把行動特徵向量做了降維度。

而沒錯，這裡也做了降維度。

Lemma 8 主要介紹一個參數向量 lambda，

跟特徵向量做內積，於是就變成1維了。

而更有趣的技巧在，

文章第4頁定義了 Sgima-代數，

是有包含行動特徵向量的，

所以並不需要考慮行動特徵向量的分佈，

因為在給定的「過濾 Filtration」下，

行動特徵向量並沒有隨機性。

如此，隨機性就完全來自源頭假設獎勵模型裡面的噪音。

Yasin這篇文章中，假設的分佈是 R-次高斯，

所以可以先透過一些高斯分佈相關的Calculus，

來了解給這個噪音乘以常數除以常數後的分佈。

於是，就從原本R-次高斯分佈的定義，

推導出了「鞅差 Martingale Difference」的定義，

進一步構造了「超鞅 Supermartingale」。

Bandit算法裡面各種對任何時刻都對的機率不等式，

基本上都有「超鞅 Supermartingale」在裡面。

Reference

[1] https://scholar.google.com/citations?user=0WsQ0uUAAAAJ&hl=da

[2] https://arxiv.org/abs/1611.06534

王啟樺的沙龍

559會員

1.8K內容數

Outline as Content

留言

留言分享你的想法！

王啟樺的沙龍的其他內容

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

#數位筆記 #學術工作流 #碩博士生

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

#Obsidian #數位筆記 #學術工作流

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

#基礎建設 #DeepSeek #美國