Bandit 002｜信心集合在強盜算法中有什麼作用？

王啟樺

更新於 2024/07/15發佈於 2024/07/15閱讀時間約 2 分鐘

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，

《Improved Algorithms for Linear Stochastic Bandits》[2]。

在15頁的順間後悔分析中，

我們在B001講到上界已經替換為

「強盜算法行動在強盜參數估計得到的獎勵」

以及「強盜算法行動在真實強盜參數下的獎勵」兩者的差異。

有趣的是，這裡的「行動」已經固定為「強盜算法選擇的行動」，

所以我們只需要關心「強盜參數估計」與「真實強盜參數」之間的差異就可以。

而根據Yasin在Section 2的描述，

這裡的「強盜參數估計」只會在一個特定的「信心集合 Confidence Set」搜尋。

而對這個「信心集合 Confidence Set」的要求也很基礎，

就是要有高的機率能夠抓到「真實強盜參數」。

有了信心集合這個工具以後，

我們選取「信心集合原點」來當作橋樑，

連結「強盜參數估計」以及「真實強盜參數」。

首先，由於信心集合的基礎要求，

就是高機率可以抓住真實強盜參數，

所以「信心集合原點」與「真實強盜參數」之間的差距，

最遠就是「信心集合的半徑」。

接下來，由於強盜參數估計只會在信心集合內搜尋，

所以「強盜參數估計」與「真實強盜參數」之間的差距，

最遠也只是「信心集合的半徑」。

如此，只要我們能計算「信心集合的半徑」，

那麼瞬間後悔的大小，

就小於2倍的「信心集合的半徑」乘上「強盜算法行為的長度」。

而由於整個論證其實對「強盜參數估計」只有一個樂觀估計的要求，

所以只要我們能提出一種估計，

是樂觀而且在構造出來的信心集合內，

那麼用同樣證明邏輯都走得通。

Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

留言

留言分享你的想法！

王啟樺的沙龍

568會員

1.8K內容數

Outline as Content

王啟樺的沙龍的其他內容

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

看更多

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

重點摘要： 6 月繼續維持基準利率不變，強調維持高利率主因為關稅點陣圖表現略為鷹派，收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變，強調需要維持高利率是因為關稅：聯準會 (Fed) 召開 6 月利率會議

#Fed#聯準會#美股

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

#Fed#聯準會#美股

2025/06/18

納樣如何

偵查團(下)

我們要趁人蛇集團撒網的時候，抓到證據並一口氣收網，算是一種借力使力的計畫。

#創作#夢境#偵查團

2024/07/25

納樣如何

偵查團(下)

我們要趁人蛇集團撒網的時候，抓到證據並一口氣收網，算是一種借力使力的計畫。

#創作#夢境#偵查團

2024/07/25

月染墨江的情事花園

抓到盜文是從哪裡流出了

　　自從之前發現被對岸網站盜文，就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個，所以花了一些時間，把每一個平台的每一篇文全都加上聲明，想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了，但總要有證據嘛﹚。　　而且，因為怕盜文時設有自動屏蔽、替換功能，我還特地將文字聲明

2024/07/22

2024/07/22

Telegram 憑證監控機器人實作 EP5 — 代碼優化

本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化，包括新增指令、讀取變數、提高可讀性和可維護性。

#Telegram#監控#python

2024/06/20

Alan的開發者天地

Telegram 憑證監控機器人實作 EP5 — 代碼優化

本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化，包括新增指令、讀取變數、提高可讀性和可維護性。

2024/06/20

2024/06/07

2024/06/07

以前是防人類盜圖，現在是防科技盜圖，我感覺不管是哪一種在盜圖，看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生，只不過科技的力量仍然帶來更大的影響，如果掌握資源的人認為，本來就沒有義務去思考，那麼部分的犧牲只是時間早晚的問題。這麼說也不是覺得可以

2024/06/01

2024/06/01

前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』，讓我想到以前寫過類似的故事，關於小型資訊公司與貼牌軟體漏洞的故事，也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。

2024/03/04

2024/03/04

Freddy Business & Research的沙龍

【商業劇本 Playbook】理一下我對資安產業發展脈絡的認知

這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化，並探討了雲端和機器學習對資安產業的影響，特別針對雲端、機器學習、network security等議題進行了詳細的分析。

#資安#雲端#學習

2024/02/23

Freddy Business & Research的沙龍

【商業劇本 Playbook】理一下我對資安產業發展脈絡的認知

#資安#雲端#學習

2024/02/23

左先生的沙龍

2024-01-29駭客目標

筆者最近和同行討論，關於駭客找尋目標的方法。其實近十年駭客對於選擇目標的方式其實已經變得很難猜測。一般人會想到，駭客一定是會選擇一些利潤大的目標，如銀行、虛擬資產平台等等。但是不要忘記，這些財力雄厚的公司當然也知道自己是很容易成為目標，所以他們的防線也不是容易擊破的。

2024/01/29

2024/01/29

【網路安全停看聽】打造密不可破的防護網，政府、法令是最後一道防線

政府、法令是資訊安全的最後防線，本文從政府及法律層面探討網路安全議題，以及資通安全管理法和個資法的重要性。政府擴大進用資安人才，以及執行資通安全管理法、個資法的相關規定，對維護數位平臺安全有著重要作用。除此之外，文章還強調了民眾的資安素養及企業、政府的連手防禦對抗駭客組織及詐騙集團的重要性。

#網路安全#個資法#Podcast

2024/01/21

網路安全停看聽-安啦的沙龍

【網路安全停看聽】打造密不可破的防護網，政府、法令是最後一道防線

#網路安全#個資法#Podcast

2024/01/21

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News