Bandit 004|如何使用鞅集中不等式分析強盜演算法?

閱讀時間約 1 分鐘

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章,


《Improved Algorithms for Linear Stochastic Bandits》[2]。


今天主要想討論在第11頁的Lemma 8,


Yasin 展示了如何構造「超鞅 Supermartingale」,


來進一步使用「鞅集中不等式 Martingale Concentration Inequality」做分析。


直觀看,行動特徵向量是d維度的,而鞅原則上都是1維度的,


兩者如何能結合呢?


這一定有某個地方,把行動特徵向量做了降維度。


而沒錯,這裡也做了降維度。


Lemma 8 主要介紹一個參數向量 lambda,


跟特徵向量做內積,於是就變成1維了。


而更有趣的技巧在,


文章第4頁定義了 Sgima-代數,


是有包含行動特徵向量的,


所以並不需要考慮行動特徵向量的分佈,


因為在給定的「過濾 Filtration」下,


行動特徵向量並沒有隨機性。


如此,隨機性就完全來自源頭假設獎勵模型裡面的噪音。


Yasin這篇文章中,假設的分佈是 R-次高斯,


所以可以先透過一些高斯分佈相關的Calculus,


來了解給這個噪音乘以常數除以常數後的分佈。


於是,就從原本R-次高斯分佈的定義,


推導出了「鞅差 Martingale Difference」的定義,


進一步構造了「超鞅 Supermartingale」。


Bandit算法裡面各種對任何時刻都對的機率不等式,


基本上都有「超鞅 Supermartingale」在裡面。


Reference

[1] https://scholar.google.com/citations?user=0WsQ0uUAAAAJ&hl=da

[2] https://arxiv.org/abs/1611.06534




avatar-img
531會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
1. 過度堅持自己的審美觀念: - 當你堅持只從個人審美角度評價事物,可能會忽略其他重要的學術或實際標準。例如,您可能認為某個研究方法不夠「美」而拒絕採用,這可能導致錯失更好的研究成果。同樣地,在選擇研究課題時,如果過於偏重自己的興趣而忽視了其實際應用價值,可能會影響你在學術界的影響力和發展。
寫短文是為了與有趣的想法邂逅,然後把有趣的想法在自己的腦中過一過。 讀書讀到一段有意思,如果沒有寫作,那留下的印象少, 其實跟沒讀書一樣。 而避免這樣徒勞無功的秘訣,就是利用山口拓郎說的,要將自己的意見「具體化」。
看著網路教學使用卡片盒筆記法的碩博士生,都會踩到的3個陷阱: 1. 依賴誤導性的資料來源: 2. 缺乏實際寫作經驗: 3. 沒有文化背景支撐: 你在使用卡片盒筆記法的過程中還見過什麼其他錯誤?
我目前在Obsidian的實踐上,我有三種主要的連結策略: 01 用筆記標題去連結有結構的從屬關係 02 用參考資料連結筆記庫外的補充資料 03 用Obsidian內部連結[4]筆記庫內的補充資料
1. 盲目自信: - 剛開始做實驗時,博士生常常會有一種「我的實驗設計一定有道理」的心態。這種心態讓他們在未得到預期結果時,會認為只是某個設定出了問題,只要加班加點,各種嘗試,一定可以突破。實際上,這種盲目的自信會導致博士生在錯誤的方向上浪費大量時間和精力,最終結果可能並不理想。 2.
「啟發筆記」由「摘錄」+「 自由寫作 」兩個部分構成。 「摘錄」的部分是指你閱讀的「文章」「書本」上的原汁原味內容, 你需要將原文一字不漏照抄,以避免斷章取義或者轉述上出現落差。 而「自由寫作」則是你做完「摘錄」後, 馬上紀錄自己心中的想法, 抓住自己各種念頭, 用寫作讓他們現形成文字,
1. 過度堅持自己的審美觀念: - 當你堅持只從個人審美角度評價事物,可能會忽略其他重要的學術或實際標準。例如,您可能認為某個研究方法不夠「美」而拒絕採用,這可能導致錯失更好的研究成果。同樣地,在選擇研究課題時,如果過於偏重自己的興趣而忽視了其實際應用價值,可能會影響你在學術界的影響力和發展。
寫短文是為了與有趣的想法邂逅,然後把有趣的想法在自己的腦中過一過。 讀書讀到一段有意思,如果沒有寫作,那留下的印象少, 其實跟沒讀書一樣。 而避免這樣徒勞無功的秘訣,就是利用山口拓郎說的,要將自己的意見「具體化」。
看著網路教學使用卡片盒筆記法的碩博士生,都會踩到的3個陷阱: 1. 依賴誤導性的資料來源: 2. 缺乏實際寫作經驗: 3. 沒有文化背景支撐: 你在使用卡片盒筆記法的過程中還見過什麼其他錯誤?
我目前在Obsidian的實踐上,我有三種主要的連結策略: 01 用筆記標題去連結有結構的從屬關係 02 用參考資料連結筆記庫外的補充資料 03 用Obsidian內部連結[4]筆記庫內的補充資料
1. 盲目自信: - 剛開始做實驗時,博士生常常會有一種「我的實驗設計一定有道理」的心態。這種心態讓他們在未得到預期結果時,會認為只是某個設定出了問題,只要加班加點,各種嘗試,一定可以突破。實際上,這種盲目的自信會導致博士生在錯誤的方向上浪費大量時間和精力,最終結果可能並不理想。 2.
「啟發筆記」由「摘錄」+「 自由寫作 」兩個部分構成。 「摘錄」的部分是指你閱讀的「文章」「書本」上的原汁原味內容, 你需要將原文一字不漏照抄,以避免斷章取義或者轉述上出現落差。 而「自由寫作」則是你做完「摘錄」後, 馬上紀錄自己心中的想法, 抓住自己各種念頭, 用寫作讓他們現形成文字,
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集,以下著手資料集下載程式: import urllib.request # Define the
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪
Thumbnail
在社群平臺上,一切的可見度都受到演算法控制,想要增加曝光就必須深入瞭解演算法的運作方式。本篇文章將透過說明演算法的運作方式以及狙擊演算法的第一步:HOOK來提供一些策略,協助創作者應對平臺演算法的變化。
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改變一
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改
Thumbnail
演算法映射化簡的核心觀念 在面對新題目的時候,除了重頭想一個新的演算法之外; 還有另一個方法,想看看有沒有核心觀念彼此相同的問題與演算法, 如果有,就可以把新的題目映射化簡到已知解法的問題,用已知的演算法去解開。 接著,我們會介紹幾個範例,並且使用映射化簡的技巧來解題,透過化
Thumbnail
上周的十銓反彈 主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集,以下著手資料集下載程式: import urllib.request # Define the
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪
Thumbnail
在社群平臺上,一切的可見度都受到演算法控制,想要增加曝光就必須深入瞭解演算法的運作方式。本篇文章將透過說明演算法的運作方式以及狙擊演算法的第一步:HOOK來提供一些策略,協助創作者應對平臺演算法的變化。
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改變一
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改
Thumbnail
主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪 改
Thumbnail
演算法映射化簡的核心觀念 在面對新題目的時候,除了重頭想一個新的演算法之外; 還有另一個方法,想看看有沒有核心觀念彼此相同的問題與演算法, 如果有,就可以把新的題目映射化簡到已知解法的問題,用已知的演算法去解開。 接著,我們會介紹幾個範例,並且使用映射化簡的技巧來解題,透過化
Thumbnail
上周的十銓反彈 主力的布局過程 往往耗費長期時間 手法又細膩且隱密 等到受不了 他就默默噴發 分點解析搭配技術型態也常能搭上主力的順風車 跟著勝利券商操作 勝率也能大大提升! 重視籌碼分析 基本面跟技術面需要去研究線圖指標或財報等財務資訊 但籌碼只要花點時間研究或許就能看出端倪