Bandit 001|如何將未知量轉化為已知量?

更新於 發佈於 閱讀時間約 2 分鐘

由Yasin Abbasi-Yadkori [1] 於2011年發表的文章,


《Improved Algorithms for Linear Stochastic Bandits》[2],


是每一個做 Bandit Problem 學術研究的人必讀的經典。


而看Bandit相關的Paper,我的第一步是從Regret Analysis開始看。


在Yasin這篇文章的第15頁,


我們可以看到對「瞬間後悔 instantaneous regret」的完整分析過程。


瞬間後悔的定義,是「在真實強盜參數 (Bandit Parameter)下,


強盜算法 (Bandit Algorithms),


所選擇的行動 (Action)所得到的獎勵 (Reward),


以及可能達到的最大獎勵 (Maximal)之間的差距 (Gap)。」


Yasin 在證明的第一步,用了一個很巧妙的上界,


直接點出了其在Section 2 描述的


「面對不確定性下的樂觀 Optimism in the Face of Uncertainty (OFU)」


在瞬間後悔分析時達到的效果:


將「未知的"真實強盜參數"與未知的"最優行動"」


替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。


於是,在瞬間後悔定義中用到的未知量,


都能轉化為強盜算法設計就能知道的已知量,


那麼分析就能繼續下去。


這個思維在做理論研究的時候相當重要,


因為當我們在選取Performance Measure時,


通常會涉及一些「無法觀察的未知量」。


而如何用上界或下界來替換成「能計算的已知量」,


是一個演算法能不能做理論分析的關鍵。


Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

留言
avatar-img
留言分享你的想法!
avatar-img
王啟樺的沙龍
568會員
1.8K內容數
Outline as Content
王啟樺的沙龍的其他內容
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
我們要趁人蛇集團撒網的時候,抓到證據並一口氣收網,算是一種借力使力的計畫。
Thumbnail
我們要趁人蛇集團撒網的時候,抓到證據並一口氣收網,算是一種借力使力的計畫。
Thumbnail
  自從之前發現被對岸網站盜文,就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個,所以花了一些時間,把每一個平台的每一篇文全都加上聲明,想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了,但總要有證據嘛﹚。   而且,因為怕盜文時設有自動屏蔽、替換功能,我還特地將文字聲明
Thumbnail
  自從之前發現被對岸網站盜文,就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個,所以花了一些時間,把每一個平台的每一篇文全都加上聲明,想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了,但總要有證據嘛﹚。   而且,因為怕盜文時設有自動屏蔽、替換功能,我還特地將文字聲明
Thumbnail
資訊作戰是一個廣泛的術語,包含一系列旨在影響對手或目標受眾行為、感知或決策的活動。可用於實現各種目標,包括: 獲取或維持信息優勢,干擾或否認對手的溝通能力,損害對手的聲譽或可信度,在對手內部種下紛爭或分裂,影響敵人人口的行為。 資訊操作可使用各種方法進行: 網絡戰, 心理戰, 社會工程, 資訊不實
Thumbnail
資訊作戰是一個廣泛的術語,包含一系列旨在影響對手或目標受眾行為、感知或決策的活動。可用於實現各種目標,包括: 獲取或維持信息優勢,干擾或否認對手的溝通能力,損害對手的聲譽或可信度,在對手內部種下紛爭或分裂,影響敵人人口的行為。 資訊操作可使用各種方法進行: 網絡戰, 心理戰, 社會工程, 資訊不實
Thumbnail
設定討論方向到情報操作者不想要的方向,可以卡住情報操作者想引導人們相信的事、辯解的藉口。 以 #兩兆錢坑 法案來講,情報操作者的論述大概是用「時候未到所以不一定」的原理來欺瞞逃脫質疑。這時可以設定的討論方向是: 1雖然未發生,但是法規有限制比較有保障 2討論「空白授權」可能的危害 例如:
Thumbnail
設定討論方向到情報操作者不想要的方向,可以卡住情報操作者想引導人們相信的事、辯解的藉口。 以 #兩兆錢坑 法案來講,情報操作者的論述大概是用「時候未到所以不一定」的原理來欺瞞逃脫質疑。這時可以設定的討論方向是: 1雖然未發生,但是法規有限制比較有保障 2討論「空白授權」可能的危害 例如:
Thumbnail
以前是防人類盜圖, 現在是防科技盜圖, 我感覺不管是哪一種在盜圖, 看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生, 只不過科技的力量仍然帶來更大的影響, 如果掌握資源的人認為,本來就沒有義務去思考, 那麼部分的犧牲只是時間早晚的問題。 這麼說也不是覺得可以
Thumbnail
以前是防人類盜圖, 現在是防科技盜圖, 我感覺不管是哪一種在盜圖, 看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生, 只不過科技的力量仍然帶來更大的影響, 如果掌握資源的人認為,本來就沒有義務去思考, 那麼部分的犧牲只是時間早晚的問題。 這麼說也不是覺得可以
Thumbnail
前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』,讓我想到以前寫過類似的故事,關於小型資訊公司與貼牌軟體漏洞的故事,也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。
Thumbnail
前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』,讓我想到以前寫過類似的故事,關於小型資訊公司與貼牌軟體漏洞的故事,也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。
Thumbnail
這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化,並探討了雲端和機器學習對資安產業的影響,特別針對雲端、機器學習、network security等議題進行了詳細的分析。
Thumbnail
這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化,並探討了雲端和機器學習對資安產業的影響,特別針對雲端、機器學習、network security等議題進行了詳細的分析。
Thumbnail
有時候未必賞識,只是長官不懂 在調查局任職的最後十年,我一直在懷疑自己引以為傲的數據分析能力真的是一種能力嗎?到最後電腦犯罪變成在搞假訊息防制,搞到我都在懷疑人生,到底是在打擊假訊息,還是打擊言論自由。(我自己應該是很久就關注假訊息的議題,也寫過相關文章,所以我並不是反對打擊假訊息,而是反對實質造
Thumbnail
有時候未必賞識,只是長官不懂 在調查局任職的最後十年,我一直在懷疑自己引以為傲的數據分析能力真的是一種能力嗎?到最後電腦犯罪變成在搞假訊息防制,搞到我都在懷疑人生,到底是在打擊假訊息,還是打擊言論自由。(我自己應該是很久就關注假訊息的議題,也寫過相關文章,所以我並不是反對打擊假訊息,而是反對實質造
Thumbnail
  筆者最近和同行討論,關於駭客找尋目標的方法。其實近十年駭客對於選擇目標的方式其實已經變得很難猜測。 一般人會想到,駭客一定是會選擇一些利潤大的目標,如銀行、虛擬資產平台等等。但是不要忘記,這些財力雄厚的公司當然也知道自己是很容易成為目標,所以他們的防線也不是容易擊破的。
Thumbnail
  筆者最近和同行討論,關於駭客找尋目標的方法。其實近十年駭客對於選擇目標的方式其實已經變得很難猜測。 一般人會想到,駭客一定是會選擇一些利潤大的目標,如銀行、虛擬資產平台等等。但是不要忘記,這些財力雄厚的公司當然也知道自己是很容易成為目標,所以他們的防線也不是容易擊破的。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News