Bandit 004｜如何使用鞅集中不等式分析強盜演算法？

王啟樺

2024/07/22 更新2024/07/22 發佈閱讀 1 分鐘

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，

《Improved Algorithms for Linear Stochastic Bandits》[2]。

今天主要想討論在第11頁的Lemma 8，

Yasin 展示了如何構造「超鞅 Supermartingale」，

來進一步使用「鞅集中不等式 Martingale Concentration Inequality」做分析。

直觀看，行動特徵向量是d維度的，而鞅原則上都是1維度的，

兩者如何能結合呢？

這一定有某個地方，把行動特徵向量做了降維度。

而沒錯，這裡也做了降維度。

Lemma 8 主要介紹一個參數向量 lambda，

跟特徵向量做內積，於是就變成1維了。

而更有趣的技巧在，

文章第4頁定義了 Sgima-代數，

是有包含行動特徵向量的，

所以並不需要考慮行動特徵向量的分佈，

因為在給定的「過濾 Filtration」下，

行動特徵向量並沒有隨機性。

如此，隨機性就完全來自源頭假設獎勵模型裡面的噪音。

Yasin這篇文章中，假設的分佈是 R-次高斯，

所以可以先透過一些高斯分佈相關的Calculus，

來了解給這個噪音乘以常數除以常數後的分佈。

於是，就從原本R-次高斯分佈的定義，

推導出了「鞅差 Martingale Difference」的定義，

進一步構造了「超鞅 Supermartingale」。

Bandit算法裡面各種對任何時刻都對的機率不等式，

基本上都有「超鞅 Supermartingale」在裡面。

Reference

[1] https://scholar.google.com/citations?user=0WsQ0uUAAAAJ&hl=da

[2] https://arxiv.org/abs/1611.06534

留言

留言分享你的想法！

王啟樺的沙龍

641會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

看更多

你可能也想看

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

雙11購物節準備開跑，蝦皮推出超多優惠，與你分享實際入手的收納好物，包括貨櫃收納箱、真空收納袋、可站立筆袋等，並分享如何利用蝦皮分潤計畫，一邊購物一邊賺取額外收入，讓你買得開心、賺得也開心！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

分享個人在新家裝潢後，精選 5 款蝦皮上的實用家居好物，包含客製化層架、MIT 地毯、沙發邊桌、分類垃圾桶及寵物碗架，從尺寸、功能到價格都符合需求，並提供詳細開箱心得與購買建議。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

斑三選

斑的三選: 簡訊發送平台

想發簡訊給自己經營的電商會員時，可以直接用大量簡訊平台一次發送。但目前因為詐騙簡訊"盛行"的關係，申請這類平台的規則也變嚴格了，連自己的個資也要上繳給這些平台做身份驗證，所以還是找一些安全、有信譽的廠商，免得把自己的個資賣掉外，自己會員的個資也賣了。

2024/08/08

2024/08/08

我們要趁人蛇集團撒網的時候，抓到證據並一口氣收網，算是一種借力使力的計畫。

#創作#夢境#偵查團

2024/07/25

納樣如何

偵查團(下)

我們要趁人蛇集團撒網的時候，抓到證據並一口氣收網，算是一種借力使力的計畫。

#創作#夢境#偵查團

2024/07/25

月染墨江的情事花園

抓到盜文是從哪裡流出了

　　自從之前發現被對岸網站盜文，就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個，所以花了一些時間，把每一個平台的每一篇文全都加上聲明，想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了，但總要有證據嘛﹚。　　而且，因為怕盜文時設有自動屏蔽、替換功能，我還特地將文字聲明

2024/07/22

2024/07/22

Telegram 憑證監控機器人實作 EP5 — 代碼優化

本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化，包括新增指令、讀取變數、提高可讀性和可維護性。

#Telegram#監控#python

2024/06/20

Alan的開發者天地

Telegram 憑證監控機器人實作 EP5 — 代碼優化

本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化，包括新增指令、讀取變數、提高可讀性和可維護性。

2024/06/20

2024/06/07

2024/06/07

picoCTF - Static ain't always noise 實戰解析

熱騰騰的文章又來囉～在開始之前想先聊聊為甚麼我想些 picoCTF 這系列的文章。 St

#picoCTF#CTF#writeup

2024/05/09

周濡墨的沙龍

picoCTF - Static ain't always noise 實戰解析

熱騰騰的文章又來囉～在開始之前想先聊聊為甚麼我想些 picoCTF 這系列的文章。 St

#picoCTF#CTF#writeup

2024/05/09

Freddy Business & Research

【商業劇本 Playbook】理一下我對資安產業發展脈絡的認知

這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化，並探討了雲端和機器學習對資安產業的影響，特別針對雲端、機器學習、network security等議題進行了詳細的分析。

#資安#雲端#學習

2024/02/23

Freddy Business & Research

【商業劇本 Playbook】理一下我對資安產業發展脈絡的認知

2024/02/23

2024/02/19

2024/02/19

從日誌管理看現代 IT治理與法規遵循｜昕力資訊

大數據時代下，Log的多元應用至關重要。Log生成龐大，格式各異，特別金融業需合規。探討Log廣泛應用、資訊安全、IT管理和商業決策。建立Log管理系統核心深入法規，強化IT治理、權限控管。一站式Log管理平台，確保資訊安全合規。

#日誌管理#Log管理#資安

2024/01/16

昕力資訊的沙龍

從日誌管理看現代 IT治理與法規遵循｜昕力資訊

#日誌管理#Log管理#資安

2024/01/16

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News