Bandit 001｜如何將未知量轉化為已知量？

王啟樺

2024/07/14 更新2024/07/14 發佈閱讀 2 分鐘

由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，

《Improved Algorithms for Linear Stochastic Bandits》[2]，

是每一個做 Bandit Problem 學術研究的人必讀的經典。

而看Bandit相關的Paper，我的第一步是從Regret Analysis開始看。

在Yasin這篇文章的第15頁，

我們可以看到對「瞬間後悔 instantaneous regret」的完整分析過程。

瞬間後悔的定義，是「在真實強盜參數 (Bandit Parameter)下，

強盜算法 (Bandit Algorithms)，

所選擇的行動 (Action)所得到的獎勵 (Reward)，

以及可能達到的最大獎勵 (Maximal)之間的差距 (Gap)。」

Yasin 在證明的第一步，用了一個很巧妙的上界，

直接點出了其在Section 2 描述的

「面對不確定性下的樂觀 Optimism in the Face of Uncertainty (OFU)」

在瞬間後悔分析時達到的效果：

將「未知的"真實強盜參數"與未知的"最優行動"」

替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。

於是，在瞬間後悔定義中用到的未知量，

都能轉化為強盜算法設計就能知道的已知量，

那麼分析就能繼續下去。

這個思維在做理論研究的時候相當重要，

因為當我們在選取Performance Measure時，

通常會涉及一些「無法觀察的未知量」。

而如何用上界或下界來替換成「能計算的已知量」，

是一個演算法能不能做理論分析的關鍵。

Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

留言

留言分享你的想法！

王啟樺的沙龍

639會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15