Bandit 002｜信心集合在強盜算法中有什麼作用？

王啟樺

更新於 2024/07/15發佈於 2024/07/15閱讀時間約 2 分鐘

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，

《Improved Algorithms for Linear Stochastic Bandits》[2]。

在15頁的順間後悔分析中，

我們在B001講到上界已經替換為

「強盜算法行動在強盜參數估計得到的獎勵」

以及「強盜算法行動在真實強盜參數下的獎勵」兩者的差異。

有趣的是，這裡的「行動」已經固定為「強盜算法選擇的行動」，

所以我們只需要關心「強盜參數估計」與「真實強盜參數」之間的差異就可以。

而根據Yasin在Section 2的描述，

這裡的「強盜參數估計」只會在一個特定的「信心集合 Confidence Set」搜尋。

而對這個「信心集合 Confidence Set」的要求也很基礎，

就是要有高的機率能夠抓到「真實強盜參數」。

有了信心集合這個工具以後，

我們選取「信心集合原點」來當作橋樑，

連結「強盜參數估計」以及「真實強盜參數」。

首先，由於信心集合的基礎要求，

就是高機率可以抓住真實強盜參數，

所以「信心集合原點」與「真實強盜參數」之間的差距，

最遠就是「信心集合的半徑」。

接下來，由於強盜參數估計只會在信心集合內搜尋，

所以「強盜參數估計」與「真實強盜參數」之間的差距，

最遠也只是「信心集合的半徑」。

如此，只要我們能計算「信心集合的半徑」，

那麼瞬間後悔的大小，

就小於2倍的「信心集合的半徑」乘上「強盜算法行為的長度」。

而由於整個論證其實對「強盜參數估計」只有一個樂觀估計的要求，

所以只要我們能提出一種估計，

是樂觀而且在構造出來的信心集合內，

那麼用同樣證明邏輯都走得通。

Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

留言

留言分享你的想法！

王啟樺的沙龍

634會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

看更多

你可能也想看

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》，我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物；這次活動不僅送出了許多獎勵，也反映了「內容有價」——創作不只是分享、紀錄，也能用各種不同形式變現、帶來實際收入。

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11

納樣如何

偵查團(下)

我們要趁人蛇集團撒網的時候，抓到證據並一口氣收網，算是一種借力使力的計畫。

#創作#夢境#偵查團

2024/07/25

納樣如何

偵查團(下)

我們要趁人蛇集團撒網的時候，抓到證據並一口氣收網，算是一種借力使力的計畫。

#創作#夢境#偵查團

2024/07/25

月染墨江的情事花園

抓到盜文是從哪裡流出了

　　自從之前發現被對岸網站盜文，就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個，所以花了一些時間，把每一個平台的每一篇文全都加上聲明，想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了，但總要有證據嘛﹚。　　而且，因為怕盜文時設有自動屏蔽、替換功能，我還特地將文字聲明

2024/07/22

2024/07/22

Telegram 憑證監控機器人實作 EP5 — 代碼優化

本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化，包括新增指令、讀取變數、提高可讀性和可維護性。

#Telegram#監控#python

2024/06/20

Alan的開發者天地

Telegram 憑證監控機器人實作 EP5 — 代碼優化

本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化，包括新增指令、讀取變數、提高可讀性和可維護性。

2024/06/20

2024/06/07

2024/06/07

以前是防人類盜圖，現在是防科技盜圖，我感覺不管是哪一種在盜圖，看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生，只不過科技的力量仍然帶來更大的影響，如果掌握資源的人認為，本來就沒有義務去思考，那麼部分的犧牲只是時間早晚的問題。這麼說也不是覺得可以

2024/06/01

2024/06/01

前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』，讓我想到以前寫過類似的故事，關於小型資訊公司與貼牌軟體漏洞的故事，也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。

2024/03/04

2024/03/04

Freddy Business & Research

【商業劇本 Playbook】理一下我對資安產業發展脈絡的認知

這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化，並探討了雲端和機器學習對資安產業的影響，特別針對雲端、機器學習、network security等議題進行了詳細的分析。

#資安#雲端#學習

2024/02/23

Freddy Business & Research

【商業劇本 Playbook】理一下我對資安產業發展脈絡的認知

#資安#雲端#學習

2024/02/23

左先生的沙龍

2024-01-29駭客目標

筆者最近和同行討論，關於駭客找尋目標的方法。其實近十年駭客對於選擇目標的方式其實已經變得很難猜測。一般人會想到，駭客一定是會選擇一些利潤大的目標，如銀行、虛擬資產平台等等。但是不要忘記，這些財力雄厚的公司當然也知道自己是很容易成為目標，所以他們的防線也不是容易擊破的。

2024/01/29

2024/01/29

【網路安全停看聽】打造密不可破的防護網，政府、法令是最後一道防線

政府、法令是資訊安全的最後防線，本文從政府及法律層面探討網路安全議題，以及資通安全管理法和個資法的重要性。政府擴大進用資安人才，以及執行資通安全管理法、個資法的相關規定，對維護數位平臺安全有著重要作用。除此之外，文章還強調了民眾的資安素養及企業、政府的連手防禦對抗駭客組織及詐騙集團的重要性。

#網路安全#個資法#Podcast

2024/01/21

網路安全停看聽-安啦的沙龍

【網路安全停看聽】打造密不可破的防護網，政府、法令是最後一道防線

#網路安全#個資法#Podcast

2024/01/21

左先生的沙龍

2024-01-12 假網站攻擊的更人性化手法

假網站攻擊近10年一直是全球銀行業的頭痛問題，過去發卡機構也致力去防止因為日漸盛行的網上購物而引發的騙財技倆。有一定年資的網購使用者，對於使用保安編碼器會有點印象，但成本太高，而且每天要帶着外出也十分不便(也容易出現遺失的風險)，近年智能手機普及，很多銀行已經轉用mobileapp作為主要保安編

#網站#信用卡#一次性

2024/01/12

左先生的沙龍

2024-01-12 假網站攻擊的更人性化手法

#網站#信用卡#一次性

2024/01/12

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News