Bandit 001|如何將未知量轉化為已知量?

更新 發佈閱讀 2 分鐘

由Yasin Abbasi-Yadkori [1] 於2011年發表的文章,


《Improved Algorithms for Linear Stochastic Bandits》[2],


是每一個做 Bandit Problem 學術研究的人必讀的經典。


而看Bandit相關的Paper,我的第一步是從Regret Analysis開始看。


在Yasin這篇文章的第15頁,


我們可以看到對「瞬間後悔 instantaneous regret」的完整分析過程。


瞬間後悔的定義,是「在真實強盜參數 (Bandit Parameter)下,


強盜算法 (Bandit Algorithms),


所選擇的行動 (Action)所得到的獎勵 (Reward),


以及可能達到的最大獎勵 (Maximal)之間的差距 (Gap)。」


Yasin 在證明的第一步,用了一個很巧妙的上界,


直接點出了其在Section 2 描述的


「面對不確定性下的樂觀 Optimism in the Face of Uncertainty (OFU)」


在瞬間後悔分析時達到的效果:


將「未知的"真實強盜參數"與未知的"最優行動"」


替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。


於是,在瞬間後悔定義中用到的未知量,


都能轉化為強盜算法設計就能知道的已知量,


那麼分析就能繼續下去。


這個思維在做理論研究的時候相當重要,


因為當我們在選取Performance Measure時,


通常會涉及一些「無法觀察的未知量」。


而如何用上界或下界來替換成「能計算的已知量」,


是一個演算法能不能做理論分析的關鍵。


Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

留言
avatar-img
留言分享你的想法!
avatar-img
王啟樺的沙龍
639會員
2.0K內容數
Outline as Content
王啟樺的沙龍的其他內容
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
我們要趁人蛇集團撒網的時候,抓到證據並一口氣收網,算是一種借力使力的計畫。
Thumbnail
我們要趁人蛇集團撒網的時候,抓到證據並一口氣收網,算是一種借力使力的計畫。
Thumbnail
  自從之前發現被對岸網站盜文,就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個,所以花了一些時間,把每一個平台的每一篇文全都加上聲明,想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了,但總要有證據嘛﹚。   而且,因為怕盜文時設有自動屏蔽、替換功能,我還特地將文字聲明
Thumbnail
  自從之前發現被對岸網站盜文,就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個,所以花了一些時間,把每一個平台的每一篇文全都加上聲明,想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了,但總要有證據嘛﹚。   而且,因為怕盜文時設有自動屏蔽、替換功能,我還特地將文字聲明
Thumbnail
資訊作戰是一個廣泛的術語,包含一系列旨在影響對手或目標受眾行為、感知或決策的活動。可用於實現各種目標,包括: 獲取或維持信息優勢,干擾或否認對手的溝通能力,損害對手的聲譽或可信度,在對手內部種下紛爭或分裂,影響敵人人口的行為。 資訊操作可使用各種方法進行: 網絡戰, 心理戰, 社會工程, 資訊不實
Thumbnail
資訊作戰是一個廣泛的術語,包含一系列旨在影響對手或目標受眾行為、感知或決策的活動。可用於實現各種目標,包括: 獲取或維持信息優勢,干擾或否認對手的溝通能力,損害對手的聲譽或可信度,在對手內部種下紛爭或分裂,影響敵人人口的行為。 資訊操作可使用各種方法進行: 網絡戰, 心理戰, 社會工程, 資訊不實
Thumbnail
設定討論方向到情報操作者不想要的方向,可以卡住情報操作者想引導人們相信的事、辯解的藉口。 以 #兩兆錢坑 法案來講,情報操作者的論述大概是用「時候未到所以不一定」的原理來欺瞞逃脫質疑。這時可以設定的討論方向是: 1雖然未發生,但是法規有限制比較有保障 2討論「空白授權」可能的危害 例如:
Thumbnail
設定討論方向到情報操作者不想要的方向,可以卡住情報操作者想引導人們相信的事、辯解的藉口。 以 #兩兆錢坑 法案來講,情報操作者的論述大概是用「時候未到所以不一定」的原理來欺瞞逃脫質疑。這時可以設定的討論方向是: 1雖然未發生,但是法規有限制比較有保障 2討論「空白授權」可能的危害 例如:
Thumbnail
以前是防人類盜圖, 現在是防科技盜圖, 我感覺不管是哪一種在盜圖, 看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生, 只不過科技的力量仍然帶來更大的影響, 如果掌握資源的人認為,本來就沒有義務去思考, 那麼部分的犧牲只是時間早晚的問題。 這麼說也不是覺得可以
Thumbnail
以前是防人類盜圖, 現在是防科技盜圖, 我感覺不管是哪一種在盜圖, 看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生, 只不過科技的力量仍然帶來更大的影響, 如果掌握資源的人認為,本來就沒有義務去思考, 那麼部分的犧牲只是時間早晚的問題。 這麼說也不是覺得可以
Thumbnail
前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』,讓我想到以前寫過類似的故事,關於小型資訊公司與貼牌軟體漏洞的故事,也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。
Thumbnail
前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』,讓我想到以前寫過類似的故事,關於小型資訊公司與貼牌軟體漏洞的故事,也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。
Thumbnail
這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化,並探討了雲端和機器學習對資安產業的影響,特別針對雲端、機器學習、network security等議題進行了詳細的分析。
Thumbnail
這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化,並探討了雲端和機器學習對資安產業的影響,特別針對雲端、機器學習、network security等議題進行了詳細的分析。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News