Bandit 003|如何透過擾動參數來實現最佳探索?

更新於 發佈於 閱讀時間約 2 分鐘

今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。


這篇文章是分析Linear Thompson Sampling的理論經典文章。


文章裡面示範了如何將 Thompson取樣,


看作是一種對參數的擾動,


進一步對構造擾動的噪音,


加上集中與反集中的條件 (Definition 1),


進一步在Theorem 1 證明,


線性湯姆森取樣可以有「亞線性後悔 Sublinear Regret」。


其證明過程倚賴構造兩個集合(Definition 3):


1-信賴集合:此集合能以高機率包含「真實強盜參數 True Bandit Parameter」


2-探索集合:此集合能以高機率包含「隨機探索強盜參數 Stochastic Exploration Bandit Parameter」。


這篇文章證明最有趣的地方在Lemma 3,


其構造了一個「樂觀參數集合 Optimistic Parameter Sets」,


設定為「探索集合」以及「樂觀集合」的交集。


探索集合,是透過算法擾動參數能探索到的區域,


而樂觀集合,則是擁有比真實強盜參數還要高的最優獎勵的區域。


而這個「樂觀參數集合」本身的機率大小有沒有下界,


是整個證明很重要的一環。


而這個「樂觀參數集合」的機率下界由Definition 1中,


「反集中 Anti-Concentration」來保證,


因為在Lemma 3的證明裡面,


Marc能透過一連串Convex Analysis的論證,


把整個機率變成「擾動向量分佈」與「長度一向量」的內積,


是否大過1的機率。


但根據我們的研究,


其實這一步樂觀機率下界可以避免,


只需要引入一種我們稱為「樂觀邊界點」的輔助點。


Reference

[1] https://scholar.google.com/citations?user=0WsQ0uUAAAAJ&hl=da

[2] https://arxiv.org/abs/1611.06534

avatar-img
532會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
1. 追求整本書讀完 - 很多學生會執著於把整本書從頭到尾讀完,卻忽略了是否真正吸收了書中的重要知識點。這種追求完美的閱讀方式容易讓人感到壓力,反而無法從閱讀中獲得真正的啟發與樂趣。其實,與其專注於讀完每一頁,不如專注於書中對你有啟發的部分,這樣才能更有效地利用你的時間和精力。 2.
你學習任何數學, 都要問這哪個部分是微積分長出來的, 哪個部分是線性代數長出來的。 當然,你需要先把微積分與線性代數學一次, 知道裡面有哪些內容, 接下來學任何新的東西,其實都是微積分跟線性代數。
當面對失敗時,我們本能上會感到厭惡。這種厭惡感讓我們害怕失敗,進而避免去嘗試新的挑戰。然而,成功的人往往能克服這種厭惡,勇於面對失敗,從中學習並改進。學會克服這種厭惡感,是成長的重要一步。厭惡失敗是人類的本能反應,但我們可以透過心理訓練和實踐,不斷減少這種厭惡感,進而更積極地面對挑戰。
Nick Milo 的寫作都很隨性, 很難看到他對自己的用字有比較準確的定義, 導致我雖然加入社群很久了, 但總覺得他每次講的東西都跟上次不一樣。 不過Nick Milo 這種不嚴謹的習慣, 也讓他每次都能跑出一些意料之外的想法, 每次的工作坊都能學到蠻多有趣的概念。
當時大二為增進日文聽力,我還會每個月去唱日文卡拉ok。 從慢歌逐漸能駕馭快歌,當你能自然說出日語, 聽力也會更上一層樓。 另外,觀察自己能聽到的完整句子, 然後去看一下那個完整句,對應了什麼文法, 這樣就可以連結回 JLPT N5-N1的教材, 這樣隨機去讀文法,學習也會變得很有趣。
1. 不接受建設性的反饋: - 要從失敗中提高,必須有“反饋”,而且這種“反饋”一定要“對事不對人”。人的習慣思維總是指責“人”,如果自己做錯事,就指責自己。不管是對別人還是對自己,都不要因為一件事否定一個人。只有對事不對人,才能從錯誤中獲得教訓並改進。 2. 過於在意個人成敗:
1. 追求整本書讀完 - 很多學生會執著於把整本書從頭到尾讀完,卻忽略了是否真正吸收了書中的重要知識點。這種追求完美的閱讀方式容易讓人感到壓力,反而無法從閱讀中獲得真正的啟發與樂趣。其實,與其專注於讀完每一頁,不如專注於書中對你有啟發的部分,這樣才能更有效地利用你的時間和精力。 2.
你學習任何數學, 都要問這哪個部分是微積分長出來的, 哪個部分是線性代數長出來的。 當然,你需要先把微積分與線性代數學一次, 知道裡面有哪些內容, 接下來學任何新的東西,其實都是微積分跟線性代數。
當面對失敗時,我們本能上會感到厭惡。這種厭惡感讓我們害怕失敗,進而避免去嘗試新的挑戰。然而,成功的人往往能克服這種厭惡,勇於面對失敗,從中學習並改進。學會克服這種厭惡感,是成長的重要一步。厭惡失敗是人類的本能反應,但我們可以透過心理訓練和實踐,不斷減少這種厭惡感,進而更積極地面對挑戰。
Nick Milo 的寫作都很隨性, 很難看到他對自己的用字有比較準確的定義, 導致我雖然加入社群很久了, 但總覺得他每次講的東西都跟上次不一樣。 不過Nick Milo 這種不嚴謹的習慣, 也讓他每次都能跑出一些意料之外的想法, 每次的工作坊都能學到蠻多有趣的概念。
當時大二為增進日文聽力,我還會每個月去唱日文卡拉ok。 從慢歌逐漸能駕馭快歌,當你能自然說出日語, 聽力也會更上一層樓。 另外,觀察自己能聽到的完整句子, 然後去看一下那個完整句,對應了什麼文法, 這樣就可以連結回 JLPT N5-N1的教材, 這樣隨機去讀文法,學習也會變得很有趣。
1. 不接受建設性的反饋: - 要從失敗中提高,必須有“反饋”,而且這種“反饋”一定要“對事不對人”。人的習慣思維總是指責“人”,如果自己做錯事,就指責自己。不管是對別人還是對自己,都不要因為一件事否定一個人。只有對事不對人,才能從錯誤中獲得教訓並改進。 2. 過於在意個人成敗:
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 原始 Transformer 架構的 Transduction Process 使用編碼器堆疊、解碼器堆疊而用所有模型參數來表示參考序列,我們將該輸出序列稱為參考。
Thumbnail
其實除了研究所需,觀察也是靈感的來源、也可以是日常生活的樂趣。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
最近我人都泡在Threads上做社會觀察。 脆的演算法實在是太特別...
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
資訊大混亂的時代,更需要辨別真偽的技能!人人都能解讀數據背後隱含的陷阱,撥開迷霧,看見真相。 Tim Harford (提姆.哈福特).遠見天下.2021/08.廖建容、廖月娟譯。 推薦給: ❦ 想知道如何解讀「統計學」看懂大混亂時代下的資訊內容的人 ❦ 想知道經濟學家會開出什麼樣的偵探
Thumbnail
運用大數據文本分析,所得出來的結果,皆有科學論文實證。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 原始 Transformer 架構的 Transduction Process 使用編碼器堆疊、解碼器堆疊而用所有模型參數來表示參考序列,我們將該輸出序列稱為參考。
Thumbnail
其實除了研究所需,觀察也是靈感的來源、也可以是日常生活的樂趣。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
最近我人都泡在Threads上做社會觀察。 脆的演算法實在是太特別...
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
資訊大混亂的時代,更需要辨別真偽的技能!人人都能解讀數據背後隱含的陷阱,撥開迷霧,看見真相。 Tim Harford (提姆.哈福特).遠見天下.2021/08.廖建容、廖月娟譯。 推薦給: ❦ 想知道如何解讀「統計學」看懂大混亂時代下的資訊內容的人 ❦ 想知道經濟學家會開出什麼樣的偵探
Thumbnail
運用大數據文本分析,所得出來的結果,皆有科學論文實證。