Bandit 003|如何透過擾動參數來實現最佳探索?

更新於 發佈於 閱讀時間約 2 分鐘

今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。


這篇文章是分析Linear Thompson Sampling的理論經典文章。


文章裡面示範了如何將 Thompson取樣,


看作是一種對參數的擾動,


進一步對構造擾動的噪音,


加上集中與反集中的條件 (Definition 1),


進一步在Theorem 1 證明,


線性湯姆森取樣可以有「亞線性後悔 Sublinear Regret」。


其證明過程倚賴構造兩個集合(Definition 3):


1-信賴集合:此集合能以高機率包含「真實強盜參數 True Bandit Parameter」


2-探索集合:此集合能以高機率包含「隨機探索強盜參數 Stochastic Exploration Bandit Parameter」。


這篇文章證明最有趣的地方在Lemma 3,


其構造了一個「樂觀參數集合 Optimistic Parameter Sets」,


設定為「探索集合」以及「樂觀集合」的交集。


探索集合,是透過算法擾動參數能探索到的區域,


而樂觀集合,則是擁有比真實強盜參數還要高的最優獎勵的區域。


而這個「樂觀參數集合」本身的機率大小有沒有下界,


是整個證明很重要的一環。


而這個「樂觀參數集合」的機率下界由Definition 1中,


「反集中 Anti-Concentration」來保證,


因為在Lemma 3的證明裡面,


Marc能透過一連串Convex Analysis的論證,


把整個機率變成「擾動向量分佈」與「長度一向量」的內積,


是否大過1的機率。


但根據我們的研究,


其實這一步樂觀機率下界可以避免,


只需要引入一種我們稱為「樂觀邊界點」的輔助點。


Reference

[1] https://scholar.google.com/citations?user=0WsQ0uUAAAAJ&hl=da

[2] https://arxiv.org/abs/1611.06534

留言
avatar-img
留言分享你的想法!
avatar-img
王啟樺的沙龍
634會員
2.0K內容數
Outline as Content
王啟樺的沙龍的其他內容
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 四 公元1887年,德國數學家理查德‧戴德金 (Ri
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 四 公元1887年,德國數學家理查德‧戴德金 (Ri
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 三 必須說一下波希米亞數學家/邏輯學家/哲學家/神學
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 三 必須說一下波希米亞數學家/邏輯學家/哲學家/神學
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 五 特朗貝爾依循當時數學界對函數的普遍理解,視「函數」為任一分析式。 但這時的歐拉宣稱函數不必是正常意義下的
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 五 特朗貝爾依循當時數學界對函數的普遍理解,視「函數」為任一分析式。 但這時的歐拉宣稱函數不必是正常意義下的
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 四 在這個背景下,法國物理學家達朗貝爾 (見貼文 32) 是論爭成員中發表振動弦運動的第一人,因此也是將這
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 四 在這個背景下,法國物理學家達朗貝爾 (見貼文 32) 是論爭成員中發表振動弦運動的第一人,因此也是將這
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 四 牛頓的「流數」不久便淡出歷史的舞台,後來的數學工作者選擇了萊布尼茲比較抽象的「函數」。 公元1673年,萊布尼茲在一篇名為〈觸線
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 四 牛頓的「流數」不久便淡出歷史的舞台,後來的數學工作者選擇了萊布尼茲比較抽象的「函數」。 公元1673年,萊布尼茲在一篇名為〈觸線
Thumbnail
導論:一個西方觀點的評述 四 在《符號邏輯及其應用》[MacColl 1906] 一書中,麥哥對「陳述」(statement) 和「命題」(proposition) 作出區分。他的符號邏輯將「陳述」定義為任何用於表達訊息的聲音﹑記號或符號 (或對聲音﹑記號或符號作出的任何排列)﹔「命題」則定義為
Thumbnail
導論:一個西方觀點的評述 四 在《符號邏輯及其應用》[MacColl 1906] 一書中,麥哥對「陳述」(statement) 和「命題」(proposition) 作出區分。他的符號邏輯將「陳述」定義為任何用於表達訊息的聲音﹑記號或符號 (或對聲音﹑記號或符號作出的任何排列)﹔「命題」則定義為
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
在實驗室研究和生產領域中,微小的測量誤差都可能導致巨大差異。因此,電子天平作為精準測量物質質量的儀器,在測量中扮演重要角色。本文將詳細介紹電子天平的原理、各類型天平的特色與應用,以及如何根據不同需求選擇和使用天平。
Thumbnail
在實驗室研究和生產領域中,微小的測量誤差都可能導致巨大差異。因此,電子天平作為精準測量物質質量的儀器,在測量中扮演重要角色。本文將詳細介紹電子天平的原理、各類型天平的特色與應用,以及如何根據不同需求選擇和使用天平。
Thumbnail
這篇要來分享關於「頻率」這件事,談到頻率,不免就要順便談談「吸引力法則」,現在訪間已經有多書籍、影片都有詳細描述吸引力法則的運行方式。它並不是什麼怪力亂神也不是什麼偽科學,實則吸引力法則是個再科學不過的量子力學,同頻相吸的概念而已。
Thumbnail
這篇要來分享關於「頻率」這件事,談到頻率,不免就要順便談談「吸引力法則」,現在訪間已經有多書籍、影片都有詳細描述吸引力法則的運行方式。它並不是什麼怪力亂神也不是什麼偽科學,實則吸引力法則是個再科學不過的量子力學,同頻相吸的概念而已。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News