Bandit 003｜如何透過擾動參數來實現最佳探索？

王啟樺

2024/07/18閱讀時間約 2 分鐘

今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。

這篇文章是分析Linear Thompson Sampling的理論經典文章。

文章裡面示範了如何將 Thompson取樣，

看作是一種對參數的擾動，

進一步對構造擾動的噪音，

加上集中與反集中的條件 (Definition 1)，

進一步在Theorem 1 證明，

線性湯姆森取樣可以有「亞線性後悔 Sublinear Regret」。

其證明過程倚賴構造兩個集合(Definition 3)：

1-信賴集合：此集合能以高機率包含「真實強盜參數 True Bandit Parameter」

2-探索集合：此集合能以高機率包含「隨機探索強盜參數 Stochastic Exploration Bandit Parameter」。

這篇文章證明最有趣的地方在Lemma 3，

其構造了一個「樂觀參數集合 Optimistic Parameter Sets」，

設定為「探索集合」以及「樂觀集合」的交集。

探索集合，是透過算法擾動參數能探索到的區域，

而樂觀集合，則是擁有比真實強盜參數還要高的最優獎勵的區域。

而這個「樂觀參數集合」本身的機率大小有沒有下界，

是整個證明很重要的一環。

而這個「樂觀參數集合」的機率下界由Definition 1中，

「反集中 Anti-Concentration」來保證，

因為在Lemma 3的證明裡面，

Marc能透過一連串Convex Analysis的論證，

把整個機率變成「擾動向量分佈」與「長度一向量」的內積，

是否大過1的機率。

但根據我們的研究，

其實這一步樂觀機率下界可以避免，

只需要引入一種我們稱為「樂觀邊界點」的輔助點。

Reference

[1] https://scholar.google.com/citations?user=0WsQ0uUAAAAJ&hl=da

[2] https://arxiv.org/abs/1611.06534

415會員

1.5K內容數

Outline as Content

留言0

查看全部

發表第一個留言支持創作者！

王啟樺的沙龍的其他內容

研究所碩博士生在「閱讀」上常有的3個壞習慣：

1. 追求整本書讀完 - 很多學生會執著於把整本書從頭到尾讀完，卻忽略了是否真正吸收了書中的重要知識點。這種追求完美的閱讀方式容易讓人感到壓力，反而無法從閱讀中獲得真正的啟發與樂趣。其實，與其專注於讀完每一頁，不如專注於書中對你有啟發的部分，這樣才能更有效地利用你的時間和精力。 2.

#閱讀 #壞習慣 #研究所

111｜什麼是自學數學的關鍵？

你學習任何數學，都要問這哪個部分是微積分長出來的，哪個部分是線性代數長出來的。當然，你需要先把微積分與線性代數學一次，知道裡面有哪些內容，接下來學任何新的東西，其實都是微積分跟線性代數。

#數學 #自學 #微積分

勇於嘗試學習新東西的每個研究所碩博士生，都應該掌握的「好好失敗」框架：

當面對失敗時，我們本能上會感到厭惡。這種厭惡感讓我們害怕失敗，進而避免去嘗試新的挑戰。然而，成功的人往往能克服這種厭惡，勇於面對失敗，從中學習並改進。學會克服這種厭惡感，是成長的重要一步。厭惡失敗是人類的本能反應，但我們可以透過心理訓練和實踐，不斷減少這種厭惡感，進而更積極地面對挑戰。

#失敗 #好好失敗 #碩博士生

U019｜如何將筆記變成一個生命系統？

Nick Milo 的寫作都很隨性，很難看到他對自己的用字有比較準確的定義，導致我雖然加入社群很久了，但總覺得他每次講的東西都跟上次不一樣。不過Nick Milo 這種不嚴謹的習慣，也讓他每次都能跑出一些意料之外的想法，每次的工作坊都能學到蠻多有趣的概念。

#數位筆記 #Obsidian #NickMilo

110｜為什麼語言學得好不好取決於你懂不懂文化梗？

當時大二為增進日文聽力，我還會每個月去唱日文卡拉ok。從慢歌逐漸能駕馭快歌，當你能自然說出日語，聽力也會更上一層樓。另外，觀察自己能聽到的完整句子，然後去看一下那個完整句，對應了什麼文法，這樣就可以連結回 JLPT N5-N1的教材，這樣隨機去讀文法，學習也會變得很有趣。

#日文學習 #日本歷史 #傳統文化

在研究所求學過程中你可能犯的重大錯誤：

1. 不接受建設性的反饋： - 要從失敗中提高，必須有“反饋”，而且這種“反饋”一定要“對事不對人”。人的習慣思維總是指責“人”，如果自己做錯事，就指責自己。不管是對別人還是對自己，都不要因為一件事否定一個人。只有對事不對人，才能從錯誤中獲得教訓並改進。 2. 過於在意個人成敗：

#反饋 #習慣思維 #研究論文

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國總統大選只剩下三天，我們觀察一整週民調與金融市場的變化（包含賭局），到本週五下午3:00前為止，誰是美國總統幾乎大概可以猜到60-70%的機率，本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Faker昨天真的太扯了，中國主播王多多點評的話更是精妙，分享給各位王多多的點評「Faker是我們的處境，他是LPL永遠繞不開的一個人和話題，所以我們特別渴望在決賽跟他相遇，去直面我們的處境。我們曾經稱他為最高的山，最長的河，以為山海就是盡頭，可是Faker用他28歲的年齡...

#Faker #電競 #運動

吳氏日文的沙龍

2024/05/02

如何透過日文提升職場競爭力？一位科大碩士的國際合作奇蹟

摘要：本文分享了一位科技大學碩士如何透過參加吳氏日文的高級實務閱讀與會話班，不僅提升了自己的日文水準至日檢一級，更因此在職場上獲得了巨大的競爭優勢。這位學友被公司派遣參與國際重大合作案，展現了專業和外語能力的結合是如何顯著提升個人的市場價值和職場影響力。推薦本文的理由：本文透過具體案

#分享 #學習 #職場

傅安國《安步當車》的沙龍

2024/04/13

如何透過營運管理報表提升公司運作效率

〇撰文︱圖：傅安國營運管理報表可以提供許多寶貴資訊，能牽動獲利面的許多機能管理：一.有效放大營收，箝控成本、費用3構面：一家店的總營業額稱之為收入，所有的店務開銷都必須藉由它來支付並產生利潤後始得持續正常運作。會影響「利潤」高低的因素，諸如人事費用、水、電、瓦斯、電話費、進貨

#管理 #執行 #營運

于玥心理師心靈命理的沙龍

2024/03/28

「如何透過想像力改命」

許多來諮詢命理的朋友，其實都對當時的自己有個期待，例如能不能找到好的工作、遇到好的情感對象、能不能某心儀的人在一起、未來會不會賺更多錢、做某某事業的發展好不好… 我們總會期待自己的生活有個預期中『正向的變化』，畢竟人有成長的慾望。然而，當卜卦的結果不如預期時，有些人會進一步詢問該如何改進，並試

#學員 #課程 #塔羅牌

麥克不學搖滾

2024/03/25

如何透過側載方式安裝任何軟體到Supernote Nomad上：以Windows系統為例

上次麥克在閱讀器討論區談到Supernote A6X2 (Nomad)可以在更新之後可以用更簡單的方式安裝軟體了，卻發現網友對側載(Sideload)這個概念不太熟悉，因此就寫了篇小教學跟大家講解如何輕鬆把軟體安裝到Nomad上，順便談談Supernote系列安裝軟體的辛酸史。

#3C #科技 #科技力

自在生的創作者基地

2024/03/04

如何透過寫作自我療癒、有效行動？

別把人生活得像待辦清單，每天都在滿足內在批判者的要求 -艾美．布魯納內在時常會有一個聲音對我說，你要小心，還有很多你應該注意但你沒注意到的危險，不要粗心大意，不要太過自信，要是因為你的疏忽而發生意外，你會後悔一輩子的！這種自我批判的聲音是否讓你感覺熟悉？讓你一直感覺到自己不夠好、不夠聰明，但

#身體 #對話 #力量

Roger學長的沙龍

2024/02/28

如何透過選擇提升動力

匹茲堡大學（University of Pittsburgh）的研究人員Mauricio Delgado想要找出腦神經學上的興奮與預期感來自何處，藉以知道人的動力源自哪裡。他設計了一個遊戲，邀請很多自願者來參與，玩遊戲的同時並接受功能性磁振造影（fMRI）掃描腦部。受試者的眼前有個螢幕，會先讓受試者

#選擇 #動力 #fMRI