Bandit 001｜如何將未知量轉化為已知量？

王啟樺

更新於 2024/07/14發佈於 2024/07/14閱讀時間約 2 分鐘

由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，

《Improved Algorithms for Linear Stochastic Bandits》[2]，

是每一個做 Bandit Problem 學術研究的人必讀的經典。

而看Bandit相關的Paper，我的第一步是從Regret Analysis開始看。

在Yasin這篇文章的第15頁，

我們可以看到對「瞬間後悔 instantaneous regret」的完整分析過程。

瞬間後悔的定義，是「在真實強盜參數 (Bandit Parameter)下，

強盜算法 (Bandit Algorithms)，

所選擇的行動 (Action)所得到的獎勵 (Reward)，

以及可能達到的最大獎勵 (Maximal)之間的差距 (Gap)。」

Yasin 在證明的第一步，用了一個很巧妙的上界，

直接點出了其在Section 2 描述的

「面對不確定性下的樂觀 Optimism in the Face of Uncertainty (OFU)」

在瞬間後悔分析時達到的效果：

將「未知的"真實強盜參數"與未知的"最優行動"」

替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。

於是，在瞬間後悔定義中用到的未知量，

都能轉化為強盜算法設計就能知道的已知量，

那麼分析就能繼續下去。

這個思維在做理論研究的時候相當重要，

因為當我們在選取Performance Measure時，

通常會涉及一些「無法觀察的未知量」。

而如何用上界或下界來替換成「能計算的已知量」，

是一個演算法能不能做理論分析的關鍵。

Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

543會員

1.8K內容數

Outline as Content

留言0

查看全部

發表第一個留言支持創作者！

王啟樺的沙龍的其他內容

每個研究所學生都應該掌握的情緒管理框架：

1. 命名情緒： - 當你有情緒時，給情緒「命名」（如快樂、開心、幸福、憤怒、愧疚、焦慮、心虛）。這是理解情緒的第一步，能幫助你更清楚地辨識和理解自己的情緒狀態。命名情緒讓你能夠客觀地看待它，而不會被情緒淹沒。 2. 理解情緒來源： - 理解這個情緒與「什麼事」有關，並找到

#情緒管理 #研究所 #紀錄

D017｜如何利用構思提升研究效率？

「構思，動詞，指運用心思，常指寫文章或創作藝術前所用的思考。」「構思其實是一種想像力，在事情尚未發生之前，先想像出它完成後的模樣。覺得這模樣還不錯，修修補補，加以完善，然後動手實際操作。」「有兩種靈感值得珍藏。一種事你明顯感覺到可以跟著他順流而下，把所有關節都打通。另

#構思 #學習 #研究所

研究生感到「生而為人我很抱歉」的3個尷尬時刻：

1. 不懂得節制 (Moderation)： - 很多人在已經飽了的情況下，還會再多吃一點，導致不必要的健康問題。明明已經有很多東西了，還是忍不住再買，結果不但浪費錢還佔據了空間。已經有點醉了，卻還要再喝一杯，最後反而影響了第二天的學習效率。明知社群媒體讓自己更悲慘，卻還是無法停止滑動，導致時間被

#研究生 #後悔 #上癮

U016｜你如何在計畫中平衡阻力與誘因？

計畫背後成功失敗的真相：其實是「阻力」與「誘因」在拔河。的確，如果沒有全盤考慮的話，其實背後有很多「阻力」，都會在你開始實踐計畫時出現。你會開始想做某件事，某個程度是看見了背後的「誘因」，認為這件事情做成了，就能完美解決你現在的各種困擾，能夠幫助你從現在不那麼喜歡的環境跳出來。

#計畫 #成功 #失敗

科學家生涯早期常犯的重大錯誤：

1. 追求成為厲害的科學家，而忽略持續研究的動力： - 許多學生的目標是成為厲害的科學家，但更重要的是成為能長期堅持的科學家。科學研究需要長時間的投入，因此應該關注自己能否持續堅持下去。僅僅追求名望和成就，往往會讓你在遇到困難時失去動力和方向。 2. 缺乏長期的目標和動力來源：

#科學家 #持續研究 #動力

107｜如何回應時代的學術召喚？

了解熱門的題目熱門的技術，具體是解決什麼以前無法解決的問題。熱門的題目之所以熱門，常常是因為那個工作開啟了領域很大的想像空間。而之所以有很大的想像空間，基本是因為某種「技術」得到了突破。可能以前沒辦法計算的東西，現在可以計算了，可能以前逼近的效果不好，現在變得更好誤差都更小了

研究生感到「生而為人我很抱歉」的3個尷尬時刻：

#計畫 #成功 #失敗

你可能也想看

商機：優化演算法並開始交辦給人工智慧：關於飲食。

反省就是重寫自己的演算法吧？假設我就是人工智慧，或心智的可以被看作爲人工智慧的編輯器，那我的程式碼是什麼樣的？從懵懂無知到一無所知，從自以為是到自我消逝，心智只是執行它的內容，我也需要不斷優化。最好的優化就是簡化。最能創造財富的演算法就是關於如何除錯與減少任何風險。

#人工智慧 #演算法 #料理

小松鼠的演算法樂園

2024/07/10

情境模擬: 資料夾深度 Crawler Log Folder_Leetcode #1598

本文提供了一個關於模擬法演算法的問題，介紹了操作指令的格式及其解析。透過程式碼模擬每條指令，找出回到根目錄所需的操作次數。本文詳細說明瞭模擬法的複雜度分析，能夠幫助讀者更好地理解這個問題。

#python #leetcode #algorithm

喝吧！

2024/06/08

#85《人生算法》：跨越出身與運氣，掌握人生的機率思維

今天要介紹的《人生算法》也是中國的商業思維書籍，主要是講人生算法中三大要素：時間、空間、機率。幾個相互疊加，靠著思維工具，幫我們在生活中更好地做出決策。

#人生算法 #機率 #職涯

換個腦袋「想通」生活大小事的沙龍

2024/06/03

對新舊事物正向解讀的難點在於不知不覺的隱忍與習慣，什麼意思？

對於新事物的解讀，我們最省時省力的方式是，以既有的經驗框架去推測可能的結果，但能百分百正確預估嗎？常常會出乎我們意料，因為人與環境可能分秒間迅速地變動，但我們對環境中的人事物解讀卻是採取固定思維，這是人類的盲點與優勢——預測。

#壓力調適 #情緒覺察與轉化 #負面情緒

黑貓創作報

2024/06/01

創作者怎麼狙擊演算法呢？？《黑貓創作報#3》

在社群平臺上，一切的可見度都受到演算法控制，想要增加曝光就必須深入瞭解演算法的運作方式。本篇文章將透過說明演算法的運作方式以及狙擊演算法的第一步：HOOK來提供一些策略，協助創作者應對平臺演算法的變化。

演算法映射化簡的核心觀念在面對新題目的時候，除了重頭想一個新的演算法之外；還有另一個方法，想看看有沒有核心觀念彼此相同的問題與演算法，如果有，就可以把新的題目映射化簡到已知解法的問題，用已知的演算法去解開。接著，我們會介紹幾個範例，並且使用映射化簡的技巧來解題，透過化

#leetcode #python #algorithm

dab戴伯的沙龍

2024/04/30

深度學習基本概念簡介（下）

這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題，並透過尋找函數和參數來逼近precise linear curve。另外，也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。

瞭解人生決策過程中的關鍵能力，包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力，同時改變思維模式和成功經營模式，挑戰自我，在市場競逐中找到關鍵的能力。

#核心 #機率 #人生

定向槍。

解決電腦上遇到的問題、證明正確性、探討效率並且很著重溝通，說服別人你做的事是正確且有效率的。內容：計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。

腦幽思潮

2024/07/27

商機：優化演算法並開始交辦給人工智慧：關於飲食。

#人工智慧 #演算法 #料理

小松鼠的演算法樂園

2024/07/10

情境模擬: 資料夾深度 Crawler Log Folder_Leetcode #1598

#python #leetcode #algorithm

喝吧！

2024/06/08

#85《人生算法》：跨越出身與運氣，掌握人生的機率思維

#人生算法 #機率 #職涯

換個腦袋「想通」生活大小事的沙龍

2024/06/03

對新舊事物正向解讀的難點在於不知不覺的隱忍與習慣，什麼意思？

#壓力調適 #情緒覺察與轉化 #負面情緒

黑貓創作報

2024/06/01

創作者怎麼狙擊演算法呢？？《黑貓創作報#3》

#leetcode #python #algorithm

#核心 #機率 #人生

定向槍。