筆記-強化式學習演算法簡介："ε - greedy"、"UCB1"

更新於 2024/10/05發佈於 2024/10/05閱讀時間約 3 分鐘

前言

在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》一書時，對一些沒有聽過的演算法感到陌生，基於打基礎或是增廣見聞的念頭下，上網或問ChatGPT，搜尋了一些資料，整理並紀錄而成這篇文章。

正文

下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Bandit)的問題。多臂拉霸機是說有一台拉霸機，上面有多支拉桿，拉每支拉桿會掉出來的代幣的機率都不同但是固定，問題是我們在不知道各拉桿掉出代幣的機率的情況下，如何在有限的次數中獲得最多的代幣。

ε - greedy(Epsilon - Greedy Algorithm)：

使用 1-ε 的機率選擇拉目前知道的價值最高的拉桿，ε 的機率去探索其他不知道價值的拉桿(ε 的數值介於 0 和 1)。當某支拉桿被拉了，會更新該拉桿(只有該拉桿)的價值：

V_t = (n-1)/n * V_t-1 + 1/n * R_t

V_t：所選拉桿本次的價值

n：所選拉桿的試驗次數

V_t-1：所選拉桿最近一次算出來的價值

R_t：所選拉桿本次獲得的回饋值

乍看這公式有點不好分析，但我想到用遞迴的方式解它(就是把V_t-1用它以V_t-2組成的公式帶入，一層層帶入直到V₁)。

UCB1(Upper Confidence Bound, version 1)：

一開始會把所有拉桿拉過一遍後，更新所有拉桿的價值，然後下一次選擇價值最大的拉桿，再更新所有拉桿價值，反覆下去。更新拉桿價值公式如下：

w/n + (2*ln(t)/n)^1/2

n：所選拉桿的試驗次數

w：所選拉桿的成功次數

t：所有拉桿的試驗次數總和

可以看到公式加號左邊 w/n 是成功率，右邊隨著 n 的增長而減少，鼓勵對未充分探索的選項進行更多嘗試。而UCB1策略的遺憾值是有上限的，推導如多臂老虎机UCB1算法推导一文，很複雜在這裡就不細說了。

以上兩種策略方法可以應用在廣告推薦，例如一部分時間展示點擊率高的廣告，一部分時間展示新廣告。

參考

《強化式學習：打造最強 AlphaZero 通用演算法》
多臂老虎机UCB1算法推导
ChatGPT

小結

因為工作以及開始閱讀另一本書的原因，還有就是懶惰(XD)，積了一些題目還沒細查並紀錄成文章，之後會慢慢補上來的。繼續趕路，繼續留腳印(XD)，週末愉快！

留言

留言分享你的想法！

柴郡貓姍蒂的沙龍

48會員

25內容數

柴郡貓姍蒂的沙龍的其他內容

2025/01/04

筆記-網路文章閱讀：時間序列預測

前言最近在研究時間序列的預測，除了上課，也有在Medium上看文章，學到一些知識，除了自己做筆記記錄，也分享給大家。本篇筆記為翻譯統整：Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH，這篇Me

2025/01/04

筆記-網路文章閱讀：時間序列預測

2024/10/09

筆記-強化式學習演算法簡介："Policy Gradient"

前言跟上一篇文章一樣，都是看到陌生的演算法後，去搜尋資料記錄成文章。正文在強化式學習中，策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針，具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略，使得整個任務的回報值最大化。

2024/10/09

筆記-強化式學習演算法簡介："Policy Gradient"

2024/08/11

筆記-深度學習模型訓練：在Colab上安裝DGL

前言最近在研究GAT，在網路上看到使用torch和DGL實作的GAT模型的程式碼，就想說下載下來自己跑跑看，這篇文章：Understand Graph Attention Network。途中遇到問題，把找到的解法記錄下來，給也有一樣問題的朋友參考。正文在Colab直接使用： !p

2024/08/11

筆記-深度學習模型訓練：在Colab上安裝DGL

看更多

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

重點摘要： 6 月繼續維持基準利率不變，強調維持高利率主因為關稅點陣圖表現略為鷹派，收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變，強調需要維持高利率是因為關稅：聯準會 (Fed) 召開 6 月利率會議

#Fed#聯準會#美股

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

#Fed#聯準會#美股

2025/06/18

AI.ESG.數位轉型顧問沈重宗

純強化式學習的概念與應用純強化式學習（Pure Reinforcement Learning, RL）

純強化式學習的概念與應用純強化式學習（Pure Reinforcement Learning, RL）是一種機器學習方法，智能體（agent）通過與環境的互動來學習行為策略，目標是最大化累積獎勵。這種學習方式不依賴於標記數據，而是通過試錯過程來獲得經驗，從而改進其決策能力。基本原理在

#學習#DeepSeek#自動駕駛

2025/02/16

AI.ESG.數位轉型顧問沈重宗

純強化式學習的概念與應用純強化式學習（Pure Reinforcement Learning, RL）

#學習#DeepSeek#自動駕駛

2025/02/16

九日的文字廚房

人工智慧與機器學習

這學期修了門機器學習原理，想知道AI最近在夯什麼。老師在講學習的型態時，介紹了一個有趣的型態：reinforcement learning，又稱為強化學習。這個學習模式應用在有名的電腦圍棋，Aphago訓練，以及Chat gpt 早期的訓練。reinforcement learning很有趣的地

2024/09/20

2024/09/20

本文探討了向計算機學習思維原則的重要性，文章闡述了如何在保持原則性的同時兼顧靈活性，以應對日益複雜的決策環境。同時，文章也提供了在日常工作中如何應用這種思維方式的具體建議。

2024/09/11

2024/09/11

工作知識的全局觀與拆解，也能運用在知識學習上！打造超人學習科學打造智商10000的自學超能力作者：xdite ，鄭伊廷商周出版科幻片中，拿著競爭對手的成品，然後透過逆向拆解，在重新建構一次，推出更具破壞市場的商品。（如果時間夠快的話），作者透過程式語言的學習過程，打造全棧營的實務過程，再一

2023/03/29

2023/03/29

接續上一篇【反思：學習如何學習】上 #學習成長 06 透過輸出錨定注意力英國認知心理學家布羅德本特(D.E. Broadbent)曾提出「選濾論」，他指出人的大腦會過濾從感官接受到的資訊，而過濾的標準是：資訊重要嗎？是否有把注意力集中在該資訊上，如果沒有，這個資訊不會從感覺記憶到短期記憶裡。

2022/10/29

2022/10/29

我對聯邦強盜算法個人化的一個思考：個人化聯邦學習，是有效利用全局模型與局部模型，完成任務。

這篇文章想與你分享，我閱讀個人化聯邦強盜文章以後，所產生的思考與理解。本文章收錄的一個思考與理解如下：個人化聯邦學習，是有效利用全局模型與局部模型，完成任務。思考 #1：個人化聯邦學習，是有效利用全局模型與局部模型，完成任務。

#聯邦學習#強盜演算法#個人化

2022/07/30

紫式講義的沙龍

我對聯邦強盜算法個人化的一個思考：個人化聯邦學習，是有效利用全局模型與局部模型，完成任務。

#聯邦學習#強盜演算法#個人化

2022/07/30

黎羊Leon的沙龍

頭痛的演算法

今天是一位非資工系背景商科大學生的第一堂正式演算法課程，老師上課時先讓大家玩了猜數字的遊戲，我用了自己的運氣去猜測數字，才發現自己其實運氣真的不好。接著我們透過自己所學過的程式語言，寫出了二分搜尋法以及猜數字的遊戲。我分別用了JS以及Python寫出。

2022/03/02

2022/03/02

打造超人大腦——極速閱讀、寫作、持續進化，新手高速成長的逆襲方程式

快透過簡單又直白的技巧來打造無比厲害的大腦！

#劃重點#書摘#書評

2021/11/25

Hong的沙龍

打造超人大腦——極速閱讀、寫作、持續進化，新手高速成長的逆襲方程式

快透過簡單又直白的技巧來打造無比厲害的大腦！

#劃重點#書摘#書評

2021/11/25

六叔觀察站的沙龍

【跨能致勝 1】「和善」與「不善」的學習環境

我們都以為讀書要專注，實際上，分心比較好！被《跨能致勝》拿來比較的格拉威爾大作《異數》中有個有名的例子是一名教練可以在網球選手發球前，看出會不會「雙發失誤」，而且屢試不爽，他以為他有預測能力，其實是長期訓練讓他成為專家了。從這些例子，格拉威爾提出了「1萬小時理論」（我不覺得是定律），就是說要煉成

#SIMPRO#跨能致勝#教育

2020/09/02

六叔觀察站的沙龍

【跨能致勝 1】「和善」與「不善」的學習環境

#SIMPRO#跨能致勝#教育

2020/09/02

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News