Bandit 002|信心集合在強盜算法中有什麼作用?

更新 發佈閱讀 2 分鐘

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章,


《Improved Algorithms for Linear Stochastic Bandits》[2]。


在15頁的順間後悔分析中,


我們在B001講到上界已經替換為


「強盜算法行動在強盜參數估計得到的獎勵」


以及「強盜算法行動在真實強盜參數下的獎勵」兩者的差異。


有趣的是,這裡的「行動」已經固定為「強盜算法選擇的行動」,


所以我們只需要關心「強盜參數估計」與「真實強盜參數」之間的差異就可以。


而根據Yasin在Section 2的描述,


這裡的「強盜參數估計」只會在一個特定的「信心集合 Confidence Set」搜尋。


而對這個「信心集合 Confidence Set」的要求也很基礎,


就是要有高的機率能夠抓到「真實強盜參數」。


有了信心集合這個工具以後,


我們選取「信心集合原點」來當作橋樑,


連結「強盜參數估計」以及「真實強盜參數」。


首先,由於信心集合的基礎要求,


就是高機率可以抓住真實強盜參數,


所以「信心集合原點」與「真實強盜參數」之間的差距,


最遠就是「信心集合的半徑」。


接下來,由於強盜參數估計只會在信心集合內搜尋,


所以「強盜參數估計」與「真實強盜參數」之間的差距,


最遠也只是「信心集合的半徑」。


如此,只要我們能計算「信心集合的半徑」,


那麼瞬間後悔的大小,


就小於2倍的「信心集合的半徑」乘上「強盜算法行為的長度」。


而由於整個論證其實對「強盜參數估計」只有一個樂觀估計的要求,


所以只要我們能提出一種估計,


是樂觀而且在構造出來的信心集合內,


那麼用同樣證明邏輯都走得通。



Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

留言
avatar-img
留言分享你的想法!
avatar-img
王啟樺的沙龍
647會員
2.0K內容數
Outline as Content
王啟樺的沙龍的其他內容
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
看更多
你可能也想看
Thumbnail
每年 12 月,我最期待的就是蝦皮的 雙12狂歡生日慶! 身為每個月都會在蝦皮買生活用品的創作者,真的有太多值得分享的愛用品。 這篇整理了我: ✔ 實際買過、覺得必須分享的 6 項愛用開箱 ✔ 今年雙12準備補貨及購入的購物清單 ✔ 省錢攻略+蝦皮分潤計畫,新手也能邊買邊賺! 📌現在加入領$1
Thumbnail
每年 12 月,我最期待的就是蝦皮的 雙12狂歡生日慶! 身為每個月都會在蝦皮買生活用品的創作者,真的有太多值得分享的愛用品。 這篇整理了我: ✔ 實際買過、覺得必須分享的 6 項愛用開箱 ✔ 今年雙12準備補貨及購入的購物清單 ✔ 省錢攻略+蝦皮分潤計畫,新手也能邊買邊賺! 📌現在加入領$1
Thumbnail
各位被生活壓得喘不過氣的勇者們,請停下你匆忙的腳步! 你是不是常常覺得:錢包是個黑洞,時間是個幻覺,每天都在執行「重複昨天的厭世」這個艱難的任務?這不是你的錯,這是你的人生被施加了幾道咒語! 今天,身為資深(但還沒躺平成功)的魔法道具蒐集家,我要公開這份能讓你的人生瞬間充滿「微幸福感」的魔法清單
Thumbnail
各位被生活壓得喘不過氣的勇者們,請停下你匆忙的腳步! 你是不是常常覺得:錢包是個黑洞,時間是個幻覺,每天都在執行「重複昨天的厭世」這個艱難的任務?這不是你的錯,這是你的人生被施加了幾道咒語! 今天,身為資深(但還沒躺平成功)的魔法道具蒐集家,我要公開這份能讓你的人生瞬間充滿「微幸福感」的魔法清單
Thumbnail
我們要趁人蛇集團撒網的時候,抓到證據並一口氣收網,算是一種借力使力的計畫。
Thumbnail
我們要趁人蛇集團撒網的時候,抓到證據並一口氣收網,算是一種借力使力的計畫。
Thumbnail
  自從之前發現被對岸網站盜文,就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個,所以花了一些時間,把每一個平台的每一篇文全都加上聲明,想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了,但總要有證據嘛﹚。   而且,因為怕盜文時設有自動屏蔽、替換功能,我還特地將文字聲明
Thumbnail
  自從之前發現被對岸網站盜文,就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個,所以花了一些時間,把每一個平台的每一篇文全都加上聲明,想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了,但總要有證據嘛﹚。   而且,因為怕盜文時設有自動屏蔽、替換功能,我還特地將文字聲明
Thumbnail
本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化,包括新增指令、讀取變數、提高可讀性和可維護性。
Thumbnail
本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化,包括新增指令、讀取變數、提高可讀性和可維護性。
Thumbnail
【駭入別人銷售漏斗,模仿驗證有效流程】
Thumbnail
【駭入別人銷售漏斗,模仿驗證有效流程】
Thumbnail
以前是防人類盜圖, 現在是防科技盜圖, 我感覺不管是哪一種在盜圖, 看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生, 只不過科技的力量仍然帶來更大的影響, 如果掌握資源的人認為,本來就沒有義務去思考, 那麼部分的犧牲只是時間早晚的問題。 這麼說也不是覺得可以
Thumbnail
以前是防人類盜圖, 現在是防科技盜圖, 我感覺不管是哪一種在盜圖, 看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生, 只不過科技的力量仍然帶來更大的影響, 如果掌握資源的人認為,本來就沒有義務去思考, 那麼部分的犧牲只是時間早晚的問題。 這麼說也不是覺得可以
Thumbnail
前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』,讓我想到以前寫過類似的故事,關於小型資訊公司與貼牌軟體漏洞的故事,也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。
Thumbnail
前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』,讓我想到以前寫過類似的故事,關於小型資訊公司與貼牌軟體漏洞的故事,也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。
Thumbnail
這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化,並探討了雲端和機器學習對資安產業的影響,特別針對雲端、機器學習、network security等議題進行了詳細的分析。
Thumbnail
這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化,並探討了雲端和機器學習對資安產業的影響,特別針對雲端、機器學習、network security等議題進行了詳細的分析。
Thumbnail
  筆者最近和同行討論,關於駭客找尋目標的方法。其實近十年駭客對於選擇目標的方式其實已經變得很難猜測。 一般人會想到,駭客一定是會選擇一些利潤大的目標,如銀行、虛擬資產平台等等。但是不要忘記,這些財力雄厚的公司當然也知道自己是很容易成為目標,所以他們的防線也不是容易擊破的。
Thumbnail
  筆者最近和同行討論,關於駭客找尋目標的方法。其實近十年駭客對於選擇目標的方式其實已經變得很難猜測。 一般人會想到,駭客一定是會選擇一些利潤大的目標,如銀行、虛擬資產平台等等。但是不要忘記,這些財力雄厚的公司當然也知道自己是很容易成為目標,所以他們的防線也不是容易擊破的。
Thumbnail
政府、法令是資訊安全的最後防線,本文從政府及法律層面探討網路安全議題,以及資通安全管理法和個資法的重要性。政府擴大進用資安人才,以及執行資通安全管理法、個資法的相關規定,對維護數位平臺安全有著重要作用。除此之外,文章還強調了民眾的資安素養及企業、政府的連手防禦對抗駭客組織及詐騙集團的重要性。
Thumbnail
政府、法令是資訊安全的最後防線,本文從政府及法律層面探討網路安全議題,以及資通安全管理法和個資法的重要性。政府擴大進用資安人才,以及執行資通安全管理法、個資法的相關規定,對維護數位平臺安全有著重要作用。除此之外,文章還強調了民眾的資安素養及企業、政府的連手防禦對抗駭客組織及詐騙集團的重要性。
Thumbnail
假網站攻擊近10年一直是全球銀行業的頭痛問題,過去發卡機構也致力去防止因為日漸盛行的網上購物而引發的騙財技倆。 有一定年資的網購使用者,對於使用保安編碼器會有點印象,但成本太高,而且每天要帶着外出也十分不便(也容易出現遺失的風險),近年智能手機普及,很多銀行已經轉用mobileapp作為主要保安編
Thumbnail
假網站攻擊近10年一直是全球銀行業的頭痛問題,過去發卡機構也致力去防止因為日漸盛行的網上購物而引發的騙財技倆。 有一定年資的網購使用者,對於使用保安編碼器會有點印象,但成本太高,而且每天要帶着外出也十分不便(也容易出現遺失的風險),近年智能手機普及,很多銀行已經轉用mobileapp作為主要保安編
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News