筆記-強化式學習演算法簡介:"ε - greedy"、"UCB1"

更新 發佈閱讀 3 分鐘

前言

在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。



正文

下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Bandit)的問題。多臂拉霸機是說有一台拉霸機,上面有多支拉桿,拉每支拉桿會掉出來的代幣的機率都不同但是固定,問題是我們在不知道各拉桿掉出代幣的機率的情況下,如何在有限的次數中獲得最多的代幣。

  • ε - greedy(Epsilon - Greedy Algorithm):

使用 1-ε 的機率選擇拉目前知道的價值最高的拉桿,ε 的機率去探索其他不知道價值的拉桿(ε 的數值介於 0 和 1)。當某支拉桿被拉了,會更新該拉桿(只有該拉桿)的價值:

Vt = (n-1)/n * Vt-1 + 1/n * Rt

Vt:所選拉桿本次的價值

n:所選拉桿的試驗次數

Vt-1:所選拉桿最近一次算出來的價值

Rt:所選拉桿本次獲得的回饋值

乍看這公式有點不好分析,但我想到用遞迴的方式解它(就是把Vt-1用它以Vt-2組成的公式帶入,一層層帶入直到V1)。


  • UCB1(Upper Confidence Bound, version 1):

一開始會把所有拉桿拉過一遍後,更新所有拉桿的價值,然後下一次選擇價值最大的拉桿,再更新所有拉桿價值,反覆下去。更新拉桿價值公式如下:

w/n + (2*ln(t)/n)1/2

n:所選拉桿的試驗次數

w:所選拉桿的成功次數

t:所有拉桿的試驗次數總和

可以看到公式加號左邊 w/n 是成功率,右邊隨著 n​ 的增長而減少,鼓勵對未充分探索的選項進行更多嘗試。而UCB1策略的遺憾值是有上限的,推導如多臂老虎机UCB1算法推导一文,很複雜在這裡就不細說了。


以上兩種策略方法可以應用在廣告推薦,例如一部分時間展示點擊率高的廣告,一部分時間展示新廣告。



參考



小結

因為工作以及開始閱讀另一本書的原因,還有就是懶惰(XD),積了一些題目還沒細查並紀錄成文章,之後會慢慢補上來的。繼續趕路,繼續留腳印(XD),週末愉快!



留言
avatar-img
留言分享你的想法!
avatar-img
柴郡貓姍蒂的沙龍
49會員
39內容數
2025/01/04
前言 最近在研究時間序列的預測,除了上課,也有在Medium上看文章,學到一些知識,除了自己做筆記記錄,也分享給大家。本篇筆記為翻譯統整:Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH,這篇Me
2025/01/04
前言 最近在研究時間序列的預測,除了上課,也有在Medium上看文章,學到一些知識,除了自己做筆記記錄,也分享給大家。本篇筆記為翻譯統整:Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH,這篇Me
2024/10/09
前言 跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。 正文 在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。
2024/10/09
前言 跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。 正文 在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。
2024/08/11
前言 最近在研究GAT,在網路上看到使用torch和DGL實作的GAT模型的程式碼,就想說下載下來自己跑跑看,這篇文章:Understand Graph Attention Network。途中遇到問題,把找到的解法記錄下來,給也有一樣問題的朋友參考。 正文 在Colab直接使用: !p
2024/08/11
前言 最近在研究GAT,在網路上看到使用torch和DGL實作的GAT模型的程式碼,就想說下載下來自己跑跑看,這篇文章:Understand Graph Attention Network。途中遇到問題,把找到的解法記錄下來,給也有一樣問題的朋友參考。 正文 在Colab直接使用: !p
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
純強化式學習的概念與應用 純強化式學習(Pure Reinforcement Learning, RL)是一種機器學習方法,智能體(agent)通過與環境的互動來學習行為策略,目標是最大化累積獎勵。這種學習方式不依賴於標記數據,而是通過試錯過程來獲得經驗,從而改進其決策能力。 基本原理 在
Thumbnail
純強化式學習的概念與應用 純強化式學習(Pure Reinforcement Learning, RL)是一種機器學習方法,智能體(agent)通過與環境的互動來學習行為策略,目標是最大化累積獎勵。這種學習方式不依賴於標記數據,而是通過試錯過程來獲得經驗,從而改進其決策能力。 基本原理 在
Thumbnail
這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。 這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地
Thumbnail
這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。 這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地
Thumbnail
本文探討了向計算機學習思維原則的重要性,文章闡述了如何在保持原則性的同時兼顧靈活性,以應對日益複雜的決策環境。同時,文章也提供了在日常工作中如何應用這種思維方式的具體建議。
Thumbnail
本文探討了向計算機學習思維原則的重要性,文章闡述了如何在保持原則性的同時兼顧靈活性,以應對日益複雜的決策環境。同時,文章也提供了在日常工作中如何應用這種思維方式的具體建議。
Thumbnail
工作知識的全局觀與拆解,也能運用在知識學習上! 打造超人學習 科學打造智商10000的自學超能力 作者:xdite ,鄭伊廷 商周出版 科幻片中,拿著競爭對手的成品,然後透過逆向拆解,在重新建構一次,推出更具破壞市場的商品。(如果時間夠快的話),作者透過程式語言的學習過程,打造全棧營的實務過程,再一
Thumbnail
工作知識的全局觀與拆解,也能運用在知識學習上! 打造超人學習 科學打造智商10000的自學超能力 作者:xdite ,鄭伊廷 商周出版 科幻片中,拿著競爭對手的成品,然後透過逆向拆解,在重新建構一次,推出更具破壞市場的商品。(如果時間夠快的話),作者透過程式語言的學習過程,打造全棧營的實務過程,再一
Thumbnail
接續上一篇 【反思:學習如何學習】上 #學習成長 06 透過輸出錨定注意力 英國認知心理學家布羅德本特(D.E. Broadbent)曾提出「選濾論」,他指出人的大腦會過濾從感官接受到的資訊,而過濾的標準是:資訊重要嗎?是否有把注意力集中在該資訊上,如果沒有,這個資訊不會從感覺記憶到短期記憶裡。
Thumbnail
接續上一篇 【反思:學習如何學習】上 #學習成長 06 透過輸出錨定注意力 英國認知心理學家布羅德本特(D.E. Broadbent)曾提出「選濾論」,他指出人的大腦會過濾從感官接受到的資訊,而過濾的標準是:資訊重要嗎?是否有把注意力集中在該資訊上,如果沒有,這個資訊不會從感覺記憶到短期記憶裡。
Thumbnail
這篇文章想與你分享,我閱讀個人化聯邦強盜文章以後,所產生的思考與理解。 本文章收錄的一個思考與理解如下: 個人化聯邦學習,是有效利用全局模型與局部模型,完成任務。 思考 #1:個人化聯邦學習,是有效利用全局模型與局部模型,完成任務。
Thumbnail
這篇文章想與你分享,我閱讀個人化聯邦強盜文章以後,所產生的思考與理解。 本文章收錄的一個思考與理解如下: 個人化聯邦學習,是有效利用全局模型與局部模型,完成任務。 思考 #1:個人化聯邦學習,是有效利用全局模型與局部模型,完成任務。
Thumbnail
今天是一位非資工系背景商科大學生的第一堂正式演算法課程,老師上課時先讓大家玩了猜數字的遊戲,我用了自己的運氣去猜測數字,才發現自己其實運氣真的不好。 接著我們透過自己所學過的程式語言,寫出了二分搜尋法以及猜數字的遊戲。 我分別用了JS以及Python寫出。
Thumbnail
今天是一位非資工系背景商科大學生的第一堂正式演算法課程,老師上課時先讓大家玩了猜數字的遊戲,我用了自己的運氣去猜測數字,才發現自己其實運氣真的不好。 接著我們透過自己所學過的程式語言,寫出了二分搜尋法以及猜數字的遊戲。 我分別用了JS以及Python寫出。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News