Bandit 001|如何將未知量轉化為已知量?

更新於 2024/07/14閱讀時間約 2 分鐘

由Yasin Abbasi-Yadkori [1] 於2011年發表的文章,


《Improved Algorithms for Linear Stochastic Bandits》[2],


是每一個做 Bandit Problem 學術研究的人必讀的經典。


而看Bandit相關的Paper,我的第一步是從Regret Analysis開始看。


在Yasin這篇文章的第15頁,


我們可以看到對「瞬間後悔 instantaneous regret」的完整分析過程。


瞬間後悔的定義,是「在真實強盜參數 (Bandit Parameter)下,


強盜算法 (Bandit Algorithms),


所選擇的行動 (Action)所得到的獎勵 (Reward),


以及可能達到的最大獎勵 (Maximal)之間的差距 (Gap)。」


Yasin 在證明的第一步,用了一個很巧妙的上界,


直接點出了其在Section 2 描述的


「面對不確定性下的樂觀 Optimism in the Face of Uncertainty (OFU)」


在瞬間後悔分析時達到的效果:


將「未知的"真實強盜參數"與未知的"最優行動"」


替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。


於是,在瞬間後悔定義中用到的未知量,


都能轉化為強盜算法設計就能知道的已知量,


那麼分析就能繼續下去。


這個思維在做理論研究的時候相當重要,


因為當我們在選取Performance Measure時,


通常會涉及一些「無法觀察的未知量」。


而如何用上界或下界來替換成「能計算的已知量」,


是一個演算法能不能做理論分析的關鍵。


Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

avatar-img
526會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
1. 命名情緒: - 當你有情緒時,給情緒「命名」(如快樂、開心、幸福、憤怒、愧疚、焦慮、心虛)。這是理解情緒的第一步,能幫助你更清楚地辨識和理解自己的情緒狀態。命名情緒讓你能夠客觀地看待它,而不會被情緒淹沒。 2. 理解情緒來源: - 理解這個情緒與「什麼事」有關,並找到
「構思,動詞,指運用心思,常指寫文章或創作藝術前所用的思考。」 「構思其實是一種想像力,在事情尚未發生之前,先想像出它完成後的模樣。 覺得這模樣還不錯,修修補補,加以完善,然後動手實際操作。」 「有兩種靈感值得珍藏。一種事你明顯感覺到可以跟著他順流而下,把所有關節都打通。 另
1. 不懂得節制 (Moderation): - 很多人在已經飽了的情況下,還會再多吃一點,導致不必要的健康問題。明明已經有很多東西了,還是忍不住再買,結果不但浪費錢還佔據了空間。已經有點醉了,卻還要再喝一杯,最後反而影響了第二天的學習效率。明知社群媒體讓自己更悲慘,卻還是無法停止滑動,導致時間被
計畫背後成功失敗的真相:其實是「阻力」與「誘因」在拔河。的確,如果沒有全盤考慮的話,其實背後有很多「阻力」,都會在你開始實踐計畫時出現。你會開始想做某件事,某個程度是看見了背後的「誘因」,認為這件事情做成了,就能完美解決你現在的各種困擾,能夠幫助你從現在不那麼喜歡的環境跳出來。
1. 追求成為厲害的科學家,而忽略持續研究的動力: - 許多學生的目標是成為厲害的科學家,但更重要的是成為能長期堅持的科學家。科學研究需要長時間的投入,因此應該關注自己能否持續堅持下去。僅僅追求名望和成就,往往會讓你在遇到困難時失去動力和方向。 2. 缺乏長期的目標和動力來源:
了解熱門的題目熱門的技術,具體是解決什麼以前無法解決的問題。熱門的題目之所以熱門,常常是因為那個工作開啟了領域很大的想像空間。而之所以有很大的想像空間,基本是因為某種「技術」得到了突破。可能以前沒辦法計算的東西,現在可以計算了,可能以前逼近的效果不好,現在變得更好誤差都更小了
1. 命名情緒: - 當你有情緒時,給情緒「命名」(如快樂、開心、幸福、憤怒、愧疚、焦慮、心虛)。這是理解情緒的第一步,能幫助你更清楚地辨識和理解自己的情緒狀態。命名情緒讓你能夠客觀地看待它,而不會被情緒淹沒。 2. 理解情緒來源: - 理解這個情緒與「什麼事」有關,並找到
「構思,動詞,指運用心思,常指寫文章或創作藝術前所用的思考。」 「構思其實是一種想像力,在事情尚未發生之前,先想像出它完成後的模樣。 覺得這模樣還不錯,修修補補,加以完善,然後動手實際操作。」 「有兩種靈感值得珍藏。一種事你明顯感覺到可以跟著他順流而下,把所有關節都打通。 另
1. 不懂得節制 (Moderation): - 很多人在已經飽了的情況下,還會再多吃一點,導致不必要的健康問題。明明已經有很多東西了,還是忍不住再買,結果不但浪費錢還佔據了空間。已經有點醉了,卻還要再喝一杯,最後反而影響了第二天的學習效率。明知社群媒體讓自己更悲慘,卻還是無法停止滑動,導致時間被
計畫背後成功失敗的真相:其實是「阻力」與「誘因」在拔河。的確,如果沒有全盤考慮的話,其實背後有很多「阻力」,都會在你開始實踐計畫時出現。你會開始想做某件事,某個程度是看見了背後的「誘因」,認為這件事情做成了,就能完美解決你現在的各種困擾,能夠幫助你從現在不那麼喜歡的環境跳出來。
1. 追求成為厲害的科學家,而忽略持續研究的動力: - 許多學生的目標是成為厲害的科學家,但更重要的是成為能長期堅持的科學家。科學研究需要長時間的投入,因此應該關注自己能否持續堅持下去。僅僅追求名望和成就,往往會讓你在遇到困難時失去動力和方向。 2. 缺乏長期的目標和動力來源:
了解熱門的題目熱門的技術,具體是解決什麼以前無法解決的問題。熱門的題目之所以熱門,常常是因為那個工作開啟了領域很大的想像空間。而之所以有很大的想像空間,基本是因為某種「技術」得到了突破。可能以前沒辦法計算的東西,現在可以計算了,可能以前逼近的效果不好,現在變得更好誤差都更小了
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
在數位時代,人工智慧生成內容(AIGC)為中小企業帶來創新驅動力,展現其滋養與破壞性的雙面性。面對AIGC,中小企業需擁抱便利的同時警惕風險。文章探討如何在AIGC的利與弊中尋求平衡,調整心態以充分利用優勢,避免潛在危害,旨在幫助中小企業有效應對AIGC技術,迎接更智慧、負責任的未來。
Thumbnail
卡牌變彎是一個常見的問題,對於收藏價值和比賽使用都會帶來困擾。 這篇文章分享瞭如何用除濕箱和乾燥劑來修復彎曲的卡牌,同時推薦了合適的卡套來維持卡牌的狀態。
Thumbnail
Semgrep 是一個功能強大的 SAST 工具,可以幫助開發人員早期發現程式碼中的安全問題,本文介紹如何將 Semgrep 整合到 GitLab Pipeline 以進行 SAST 掃描。
Thumbnail
高大上的願景難以落地及吸引員工共鳴 為願景設下短期的里程碑-可落地願景 形朔可落地願景需達成的衡量指標與目標值 一旦可落地的願景確認後,企業必須進一步思考,若要衡量可落地的願景是否已經達成了,需要那些衡量指標,記得願景的每個面向都必須考量到。以勉覺創新可落地的願景為例,列舉二個參考指標如下所示:
Thumbnail
Hi there,上個月中 Clean Bandit 和瑞典歌手 A7S 合作,推出了全新單曲〈Everything But You〉(2022),這兩組能夠想見音樂風格的音樂人,合作後卻發展出了很不一樣的音樂火花,至少跟我原先想像的有點落差😅。已負盛名的 Clean Bandit 我想
Thumbnail
    Hi there,不知道大家有沒有發現,Whitney Houston 在1985年發行的〈How Will I Know〉,最近被英國電音樂團 Clean Bandit 拿來重新製作,聽過的人應該會覺得超級不一樣的吧。原先發行的〈How Will I Know〉收錄在 Whitney 的
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
在數位時代,人工智慧生成內容(AIGC)為中小企業帶來創新驅動力,展現其滋養與破壞性的雙面性。面對AIGC,中小企業需擁抱便利的同時警惕風險。文章探討如何在AIGC的利與弊中尋求平衡,調整心態以充分利用優勢,避免潛在危害,旨在幫助中小企業有效應對AIGC技術,迎接更智慧、負責任的未來。
Thumbnail
卡牌變彎是一個常見的問題,對於收藏價值和比賽使用都會帶來困擾。 這篇文章分享瞭如何用除濕箱和乾燥劑來修復彎曲的卡牌,同時推薦了合適的卡套來維持卡牌的狀態。
Thumbnail
Semgrep 是一個功能強大的 SAST 工具,可以幫助開發人員早期發現程式碼中的安全問題,本文介紹如何將 Semgrep 整合到 GitLab Pipeline 以進行 SAST 掃描。
Thumbnail
高大上的願景難以落地及吸引員工共鳴 為願景設下短期的里程碑-可落地願景 形朔可落地願景需達成的衡量指標與目標值 一旦可落地的願景確認後,企業必須進一步思考,若要衡量可落地的願景是否已經達成了,需要那些衡量指標,記得願景的每個面向都必須考量到。以勉覺創新可落地的願景為例,列舉二個參考指標如下所示:
Thumbnail
Hi there,上個月中 Clean Bandit 和瑞典歌手 A7S 合作,推出了全新單曲〈Everything But You〉(2022),這兩組能夠想見音樂風格的音樂人,合作後卻發展出了很不一樣的音樂火花,至少跟我原先想像的有點落差😅。已負盛名的 Clean Bandit 我想
Thumbnail
    Hi there,不知道大家有沒有發現,Whitney Houston 在1985年發行的〈How Will I Know〉,最近被英國電音樂團 Clean Bandit 拿來重新製作,聽過的人應該會覺得超級不一樣的吧。原先發行的〈How Will I Know〉收錄在 Whitney 的