Bandit 001|如何將未知量轉化為已知量?

更新於 發佈於 閱讀時間約 2 分鐘

由Yasin Abbasi-Yadkori [1] 於2011年發表的文章,


《Improved Algorithms for Linear Stochastic Bandits》[2],


是每一個做 Bandit Problem 學術研究的人必讀的經典。


而看Bandit相關的Paper,我的第一步是從Regret Analysis開始看。


在Yasin這篇文章的第15頁,


我們可以看到對「瞬間後悔 instantaneous regret」的完整分析過程。


瞬間後悔的定義,是「在真實強盜參數 (Bandit Parameter)下,


強盜算法 (Bandit Algorithms),


所選擇的行動 (Action)所得到的獎勵 (Reward),


以及可能達到的最大獎勵 (Maximal)之間的差距 (Gap)。」


Yasin 在證明的第一步,用了一個很巧妙的上界,


直接點出了其在Section 2 描述的


「面對不確定性下的樂觀 Optimism in the Face of Uncertainty (OFU)」


在瞬間後悔分析時達到的效果:


將「未知的"真實強盜參數"與未知的"最優行動"」


替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。


於是,在瞬間後悔定義中用到的未知量,


都能轉化為強盜算法設計就能知道的已知量,


那麼分析就能繼續下去。


這個思維在做理論研究的時候相當重要,


因為當我們在選取Performance Measure時,


通常會涉及一些「無法觀察的未知量」。


而如何用上界或下界來替換成「能計算的已知量」,


是一個演算法能不能做理論分析的關鍵。


Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

avatar-img
534會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
1. 命名情緒: - 當你有情緒時,給情緒「命名」(如快樂、開心、幸福、憤怒、愧疚、焦慮、心虛)。這是理解情緒的第一步,能幫助你更清楚地辨識和理解自己的情緒狀態。命名情緒讓你能夠客觀地看待它,而不會被情緒淹沒。 2. 理解情緒來源: - 理解這個情緒與「什麼事」有關,並找到
「構思,動詞,指運用心思,常指寫文章或創作藝術前所用的思考。」 「構思其實是一種想像力,在事情尚未發生之前,先想像出它完成後的模樣。 覺得這模樣還不錯,修修補補,加以完善,然後動手實際操作。」 「有兩種靈感值得珍藏。一種事你明顯感覺到可以跟著他順流而下,把所有關節都打通。 另
1. 不懂得節制 (Moderation): - 很多人在已經飽了的情況下,還會再多吃一點,導致不必要的健康問題。明明已經有很多東西了,還是忍不住再買,結果不但浪費錢還佔據了空間。已經有點醉了,卻還要再喝一杯,最後反而影響了第二天的學習效率。明知社群媒體讓自己更悲慘,卻還是無法停止滑動,導致時間被
計畫背後成功失敗的真相:其實是「阻力」與「誘因」在拔河。的確,如果沒有全盤考慮的話,其實背後有很多「阻力」,都會在你開始實踐計畫時出現。你會開始想做某件事,某個程度是看見了背後的「誘因」,認為這件事情做成了,就能完美解決你現在的各種困擾,能夠幫助你從現在不那麼喜歡的環境跳出來。
1. 追求成為厲害的科學家,而忽略持續研究的動力: - 許多學生的目標是成為厲害的科學家,但更重要的是成為能長期堅持的科學家。科學研究需要長時間的投入,因此應該關注自己能否持續堅持下去。僅僅追求名望和成就,往往會讓你在遇到困難時失去動力和方向。 2. 缺乏長期的目標和動力來源:
了解熱門的題目熱門的技術,具體是解決什麼以前無法解決的問題。熱門的題目之所以熱門,常常是因為那個工作開啟了領域很大的想像空間。而之所以有很大的想像空間,基本是因為某種「技術」得到了突破。可能以前沒辦法計算的東西,現在可以計算了,可能以前逼近的效果不好,現在變得更好誤差都更小了
1. 命名情緒: - 當你有情緒時,給情緒「命名」(如快樂、開心、幸福、憤怒、愧疚、焦慮、心虛)。這是理解情緒的第一步,能幫助你更清楚地辨識和理解自己的情緒狀態。命名情緒讓你能夠客觀地看待它,而不會被情緒淹沒。 2. 理解情緒來源: - 理解這個情緒與「什麼事」有關,並找到
「構思,動詞,指運用心思,常指寫文章或創作藝術前所用的思考。」 「構思其實是一種想像力,在事情尚未發生之前,先想像出它完成後的模樣。 覺得這模樣還不錯,修修補補,加以完善,然後動手實際操作。」 「有兩種靈感值得珍藏。一種事你明顯感覺到可以跟著他順流而下,把所有關節都打通。 另
1. 不懂得節制 (Moderation): - 很多人在已經飽了的情況下,還會再多吃一點,導致不必要的健康問題。明明已經有很多東西了,還是忍不住再買,結果不但浪費錢還佔據了空間。已經有點醉了,卻還要再喝一杯,最後反而影響了第二天的學習效率。明知社群媒體讓自己更悲慘,卻還是無法停止滑動,導致時間被
計畫背後成功失敗的真相:其實是「阻力」與「誘因」在拔河。的確,如果沒有全盤考慮的話,其實背後有很多「阻力」,都會在你開始實踐計畫時出現。你會開始想做某件事,某個程度是看見了背後的「誘因」,認為這件事情做成了,就能完美解決你現在的各種困擾,能夠幫助你從現在不那麼喜歡的環境跳出來。
1. 追求成為厲害的科學家,而忽略持續研究的動力: - 許多學生的目標是成為厲害的科學家,但更重要的是成為能長期堅持的科學家。科學研究需要長時間的投入,因此應該關注自己能否持續堅持下去。僅僅追求名望和成就,往往會讓你在遇到困難時失去動力和方向。 2. 缺乏長期的目標和動力來源:
了解熱門的題目熱門的技術,具體是解決什麼以前無法解決的問題。熱門的題目之所以熱門,常常是因為那個工作開啟了領域很大的想像空間。而之所以有很大的想像空間,基本是因為某種「技術」得到了突破。可能以前沒辦法計算的東西,現在可以計算了,可能以前逼近的效果不好,現在變得更好誤差都更小了
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
本文提供了一個關於模擬法演算法的問題,介紹了操作指令的格式及其解析。透過程式碼模擬每條指令,找出回到根目錄所需的操作次數。本文詳細說明瞭模擬法的複雜度分析,能夠幫助讀者更好地理解這個問題。
Thumbnail
今天要介紹的《人生算法》也是中國的商業思維書籍,主要是講人生算法中三大要素:時間、空間、機率。幾個相互疊加,靠著思維工具,幫我們在生活中更好地做出決策。
Thumbnail
對於新事物的解讀,我們最省時省力的方式是,以既有的經驗框架去推測可能的結果,但能百分百正確預估嗎?常常會出乎我們意料,因為人與環境可能分秒間迅速地變動,但我們對環境中的人事物解讀卻是採取固定思維,這是人類的盲點與優勢——預測。
Thumbnail
在社群平臺上,一切的可見度都受到演算法控制,想要增加曝光就必須深入瞭解演算法的運作方式。本篇文章將透過說明演算法的運作方式以及狙擊演算法的第一步:HOOK來提供一些策略,協助創作者應對平臺演算法的變化。
Thumbnail
演算法映射化簡的核心觀念 在面對新題目的時候,除了重頭想一個新的演算法之外; 還有另一個方法,想看看有沒有核心觀念彼此相同的問題與演算法, 如果有,就可以把新的題目映射化簡到已知解法的問題,用已知的演算法去解開。 接著,我們會介紹幾個範例,並且使用映射化簡的技巧來解題,透過化
這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題,並透過尋找函數和參數來逼近precise linear curve。另外,也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
本文提供了一個關於模擬法演算法的問題,介紹了操作指令的格式及其解析。透過程式碼模擬每條指令,找出回到根目錄所需的操作次數。本文詳細說明瞭模擬法的複雜度分析,能夠幫助讀者更好地理解這個問題。
Thumbnail
今天要介紹的《人生算法》也是中國的商業思維書籍,主要是講人生算法中三大要素:時間、空間、機率。幾個相互疊加,靠著思維工具,幫我們在生活中更好地做出決策。
Thumbnail
對於新事物的解讀,我們最省時省力的方式是,以既有的經驗框架去推測可能的結果,但能百分百正確預估嗎?常常會出乎我們意料,因為人與環境可能分秒間迅速地變動,但我們對環境中的人事物解讀卻是採取固定思維,這是人類的盲點與優勢——預測。
Thumbnail
在社群平臺上,一切的可見度都受到演算法控制,想要增加曝光就必須深入瞭解演算法的運作方式。本篇文章將透過說明演算法的運作方式以及狙擊演算法的第一步:HOOK來提供一些策略,協助創作者應對平臺演算法的變化。
Thumbnail
演算法映射化簡的核心觀念 在面對新題目的時候,除了重頭想一個新的演算法之外; 還有另一個方法,想看看有沒有核心觀念彼此相同的問題與演算法, 如果有,就可以把新的題目映射化簡到已知解法的問題,用已知的演算法去解開。 接著,我們會介紹幾個範例,並且使用映射化簡的技巧來解題,透過化
這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題,並透過尋找函數和參數來逼近precise linear curve。另外,也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。