Bandit 003｜如何透過擾動參數來實現最佳探索？

王啟樺

更新於 2024/07/18發佈於 2024/07/18閱讀時間約 2 分鐘

今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。

這篇文章是分析Linear Thompson Sampling的理論經典文章。

文章裡面示範了如何將 Thompson取樣，

看作是一種對參數的擾動，

進一步對構造擾動的噪音，

加上集中與反集中的條件 (Definition 1)，

進一步在Theorem 1 證明，

線性湯姆森取樣可以有「亞線性後悔 Sublinear Regret」。

其證明過程倚賴構造兩個集合(Definition 3)：

1-信賴集合：此集合能以高機率包含「真實強盜參數 True Bandit Parameter」

2-探索集合：此集合能以高機率包含「隨機探索強盜參數 Stochastic Exploration Bandit Parameter」。

這篇文章證明最有趣的地方在Lemma 3，

其構造了一個「樂觀參數集合 Optimistic Parameter Sets」，

設定為「探索集合」以及「樂觀集合」的交集。

探索集合，是透過算法擾動參數能探索到的區域，

而樂觀集合，則是擁有比真實強盜參數還要高的最優獎勵的區域。

而這個「樂觀參數集合」本身的機率大小有沒有下界，

是整個證明很重要的一環。

而這個「樂觀參數集合」的機率下界由Definition 1中，

「反集中 Anti-Concentration」來保證，

因為在Lemma 3的證明裡面，

Marc能透過一連串Convex Analysis的論證，

把整個機率變成「擾動向量分佈」與「長度一向量」的內積，

是否大過1的機率。

但根據我們的研究，

其實這一步樂觀機率下界可以避免，

只需要引入一種我們稱為「樂觀邊界點」的輔助點。

Reference

[1] https://scholar.google.com/citations?user=0WsQ0uUAAAAJ&hl=da

[2] https://arxiv.org/abs/1611.06534

王啟樺的沙龍

558會員

1.8K內容數

Outline as Content

留言

留言分享你的想法！

王啟樺的沙龍的其他內容

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

#數位筆記 #學術工作流 #碩博士生

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

#Obsidian #數位筆記 #學術工作流

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

#基礎建設 #DeepSeek #美國