Bandit 002|信心集合在強盜算法中有什麼作用?

更新於 發佈於 閱讀時間約 2 分鐘

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章,


《Improved Algorithms for Linear Stochastic Bandits》[2]。


在15頁的順間後悔分析中,


我們在B001講到上界已經替換為


「強盜算法行動在強盜參數估計得到的獎勵」


以及「強盜算法行動在真實強盜參數下的獎勵」兩者的差異。


有趣的是,這裡的「行動」已經固定為「強盜算法選擇的行動」,


所以我們只需要關心「強盜參數估計」與「真實強盜參數」之間的差異就可以。


而根據Yasin在Section 2的描述,


這裡的「強盜參數估計」只會在一個特定的「信心集合 Confidence Set」搜尋。


而對這個「信心集合 Confidence Set」的要求也很基礎,


就是要有高的機率能夠抓到「真實強盜參數」。


有了信心集合這個工具以後,


我們選取「信心集合原點」來當作橋樑,


連結「強盜參數估計」以及「真實強盜參數」。


首先,由於信心集合的基礎要求,


就是高機率可以抓住真實強盜參數,


所以「信心集合原點」與「真實強盜參數」之間的差距,


最遠就是「信心集合的半徑」。


接下來,由於強盜參數估計只會在信心集合內搜尋,


所以「強盜參數估計」與「真實強盜參數」之間的差距,


最遠也只是「信心集合的半徑」。


如此,只要我們能計算「信心集合的半徑」,


那麼瞬間後悔的大小,


就小於2倍的「信心集合的半徑」乘上「強盜算法行為的長度」。


而由於整個論證其實對「強盜參數估計」只有一個樂觀估計的要求,


所以只要我們能提出一種估計,


是樂觀而且在構造出來的信心集合內,


那麼用同樣證明邏輯都走得通。



Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

avatar-img
536會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
1. 設立過於模糊的目標: - 許多大學生在設定目標時,並沒有清晰具體的認識,這會導致後續行動缺乏方向。例如,一些學生可能只知道自己想在某個領域有所成就,但並不明確自己想要達到的具體成果,結果在研究過程中迷失方向。 2. 制定過於僵化的計畫: - 制定計畫是重要的,但計畫過於詳
記得那時候是高中三年級,當時也是在日本書上看到這個做法。 那時候我是徒手把書撕破, 就發現書脊那邊除了有熱融膠,還有一綑一綑的紙張。 而透過把書撕破來閱讀,的確可以把書的Scope 縮小, 更好玩的是,拆亂的書頁, 你可以怎麼用自己的邏輯再重新順成一個邏輯, 那真的是一個鍛鍊自己組織內容很好的練習。
1. 誤以為每個人都有自己的意見: - 很多人實際上只是隨波逐流,並沒有真正的獨立思考。這些人常常在看到某些意見時,會說「我也是這麼想的」,但實際上他們並沒有深入思考過這個問題。 2. 站隊形成優越感: - 有些人會因為站在某個特定意見的隊伍中而產生優越感,覺得自己比別人更有見地。
解剖學上,人類有兩種不同的結構,讓我們能變得更聰明。 第一個結構是「大腦 Brain」,另一個結構是「拇指 Thumb」。 人類有拇指,可以製作工具,再從工具上製作工具, 製作一套一套的工具,如此增強我們的智力。 我們是唯一能持續發展工具增強智力的物種。 我們人類,創造工具,讓我們變得更聰明。
1. 不積極拓展學術邊界: - 如果不去Push Science的Boundary,系所將逐漸轉變為主要以教學為主的系。這是我在2024年6月6日,我老闆程光老師在實驗室的餞別餐會上說的,對我影響深遠。他指出,如果一個系所不積極追求新的研究領域和挑戰,那麼最終會失去其學術地位,成為僅僅重視教學的機
在Threads上看到有人問是Contributor還是Learner比較適合念PhD, 這其實是一個很有意思的問題。 Contribute與Learn在PhD的日子, 就跟刷牙還有洗臉一樣, 每天至少要經過好幾輪。 當你實際幹了一點事情, 感覺自己有點貢獻,
1. 設立過於模糊的目標: - 許多大學生在設定目標時,並沒有清晰具體的認識,這會導致後續行動缺乏方向。例如,一些學生可能只知道自己想在某個領域有所成就,但並不明確自己想要達到的具體成果,結果在研究過程中迷失方向。 2. 制定過於僵化的計畫: - 制定計畫是重要的,但計畫過於詳
記得那時候是高中三年級,當時也是在日本書上看到這個做法。 那時候我是徒手把書撕破, 就發現書脊那邊除了有熱融膠,還有一綑一綑的紙張。 而透過把書撕破來閱讀,的確可以把書的Scope 縮小, 更好玩的是,拆亂的書頁, 你可以怎麼用自己的邏輯再重新順成一個邏輯, 那真的是一個鍛鍊自己組織內容很好的練習。
1. 誤以為每個人都有自己的意見: - 很多人實際上只是隨波逐流,並沒有真正的獨立思考。這些人常常在看到某些意見時,會說「我也是這麼想的」,但實際上他們並沒有深入思考過這個問題。 2. 站隊形成優越感: - 有些人會因為站在某個特定意見的隊伍中而產生優越感,覺得自己比別人更有見地。
解剖學上,人類有兩種不同的結構,讓我們能變得更聰明。 第一個結構是「大腦 Brain」,另一個結構是「拇指 Thumb」。 人類有拇指,可以製作工具,再從工具上製作工具, 製作一套一套的工具,如此增強我們的智力。 我們是唯一能持續發展工具增強智力的物種。 我們人類,創造工具,讓我們變得更聰明。
1. 不積極拓展學術邊界: - 如果不去Push Science的Boundary,系所將逐漸轉變為主要以教學為主的系。這是我在2024年6月6日,我老闆程光老師在實驗室的餞別餐會上說的,對我影響深遠。他指出,如果一個系所不積極追求新的研究領域和挑戰,那麼最終會失去其學術地位,成為僅僅重視教學的機
在Threads上看到有人問是Contributor還是Learner比較適合念PhD, 這其實是一個很有意思的問題。 Contribute與Learn在PhD的日子, 就跟刷牙還有洗臉一樣, 每天至少要經過好幾輪。 當你實際幹了一點事情, 感覺自己有點貢獻,
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 改變一下分享的個股 即便如此 停損停利的重要性還是要有 萬一不如預期 一定要果斷停損 避
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改變一
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集,以下著手資料集下載程式: import urllib.request # Define the
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改變一
Thumbnail
上周的十銓反彈 主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 改變一下分享的個股 即便如此 停損停利的重要性還是要有 萬一不如預期 一定要果斷停損 避
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改變一
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集,以下著手資料集下載程式: import urllib.request # Define the
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改變一
Thumbnail
上周的十銓反彈 主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪