筆記-強化式學習演算法簡介:"ε - greedy"、"UCB1"

更新於 發佈於 閱讀時間約 3 分鐘

前言

在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。



正文

下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Bandit)的問題。多臂拉霸機是說有一台拉霸機,上面有多支拉桿,拉每支拉桿會掉出來的代幣的機率都不同但是固定,問題是我們在不知道各拉桿掉出代幣的機率的情況下,如何在有限的次數中獲得最多的代幣。

  • ε - greedy(Epsilon - Greedy Algorithm):

使用 1-ε 的機率選擇拉目前知道的價值最高的拉桿,ε 的機率去探索其他不知道價值的拉桿(ε 的數值介於 0 和 1)。當某支拉桿被拉了,會更新該拉桿(只有該拉桿)的價值:

Vt = (n-1)/n * Vt-1 + 1/n * Rt

Vt:所選拉桿本次的價值

n:所選拉桿的試驗次數

Vt-1:所選拉桿最近一次算出來的價值

Rt:所選拉桿本次獲得的回饋值

乍看這公式有點不好分析,但我想到用遞迴的方式解它(就是把Vt-1用它以Vt-2組成的公式帶入,一層層帶入直到V1)。


  • UCB1(Upper Confidence Bound, version 1):

一開始會把所有拉桿拉過一遍後,更新所有拉桿的價值,然後下一次選擇價值最大的拉桿,再更新所有拉桿價值,反覆下去。更新拉桿價值公式如下:

w/n + (2*ln(t)/n)1/2

n:所選拉桿的試驗次數

w:所選拉桿的成功次數

t:所有拉桿的試驗次數總和

可以看到公式加號左邊 w/n 是成功率,右邊隨著 n​ 的增長而減少,鼓勵對未充分探索的選項進行更多嘗試。而UCB1策略的遺憾值是有上限的,推導如多臂老虎机UCB1算法推导一文,很複雜在這裡就不細說了。


以上兩種策略方法可以應用在廣告推薦,例如一部分時間展示點擊率高的廣告,一部分時間展示新廣告。



參考



小結

因為工作以及開始閱讀另一本書的原因,還有就是懶惰(XD),積了一些題目還沒細查並紀錄成文章,之後會慢慢補上來的。繼續趕路,繼續留腳印(XD),週末愉快!



留言
avatar-img
留言分享你的想法!
avatar-img
柴郡貓姍蒂的沙龍
48會員
25內容數
2025/01/04
前言 最近在研究時間序列的預測,除了上課,也有在Medium上看文章,學到一些知識,除了自己做筆記記錄,也分享給大家。本篇筆記為翻譯統整:Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH,這篇Me
2025/01/04
前言 最近在研究時間序列的預測,除了上課,也有在Medium上看文章,學到一些知識,除了自己做筆記記錄,也分享給大家。本篇筆記為翻譯統整:Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH,這篇Me
2024/10/09
前言 跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。 正文 在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。
2024/10/09
前言 跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。 正文 在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。
2024/08/11
前言 最近在研究GAT,在網路上看到使用torch和DGL實作的GAT模型的程式碼,就想說下載下來自己跑跑看,這篇文章:Understand Graph Attention Network。途中遇到問題,把找到的解法記錄下來,給也有一樣問題的朋友參考。 正文 在Colab直接使用: !p
2024/08/11
前言 最近在研究GAT,在網路上看到使用torch和DGL實作的GAT模型的程式碼,就想說下載下來自己跑跑看,這篇文章:Understand Graph Attention Network。途中遇到問題,把找到的解法記錄下來,給也有一樣問題的朋友參考。 正文 在Colab直接使用: !p
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
純強化式學習的概念與應用 純強化式學習(Pure Reinforcement Learning, RL)是一種機器學習方法,智能體(agent)通過與環境的互動來學習行為策略,目標是最大化累積獎勵。這種學習方式不依賴於標記數據,而是通過試錯過程來獲得經驗,從而改進其決策能力。 基本原理 在
Thumbnail
純強化式學習的概念與應用 純強化式學習(Pure Reinforcement Learning, RL)是一種機器學習方法,智能體(agent)通過與環境的互動來學習行為策略,目標是最大化累積獎勵。這種學習方式不依賴於標記數據,而是通過試錯過程來獲得經驗,從而改進其決策能力。 基本原理 在
Thumbnail
這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。 這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地
Thumbnail
這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。 這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地
Thumbnail
本文探討了向計算機學習思維原則的重要性,文章闡述了如何在保持原則性的同時兼顧靈活性,以應對日益複雜的決策環境。同時,文章也提供了在日常工作中如何應用這種思維方式的具體建議。
Thumbnail
本文探討了向計算機學習思維原則的重要性,文章闡述了如何在保持原則性的同時兼顧靈活性,以應對日益複雜的決策環境。同時,文章也提供了在日常工作中如何應用這種思維方式的具體建議。
Thumbnail
工作知識的全局觀與拆解,也能運用在知識學習上! 打造超人學習 科學打造智商10000的自學超能力 作者:xdite ,鄭伊廷 商周出版 科幻片中,拿著競爭對手的成品,然後透過逆向拆解,在重新建構一次,推出更具破壞市場的商品。(如果時間夠快的話),作者透過程式語言的學習過程,打造全棧營的實務過程,再一
Thumbnail
工作知識的全局觀與拆解,也能運用在知識學習上! 打造超人學習 科學打造智商10000的自學超能力 作者:xdite ,鄭伊廷 商周出版 科幻片中,拿著競爭對手的成品,然後透過逆向拆解,在重新建構一次,推出更具破壞市場的商品。(如果時間夠快的話),作者透過程式語言的學習過程,打造全棧營的實務過程,再一
Thumbnail
接續上一篇 【反思:學習如何學習】上 #學習成長 06 透過輸出錨定注意力 英國認知心理學家布羅德本特(D.E. Broadbent)曾提出「選濾論」,他指出人的大腦會過濾從感官接受到的資訊,而過濾的標準是:資訊重要嗎?是否有把注意力集中在該資訊上,如果沒有,這個資訊不會從感覺記憶到短期記憶裡。
Thumbnail
接續上一篇 【反思:學習如何學習】上 #學習成長 06 透過輸出錨定注意力 英國認知心理學家布羅德本特(D.E. Broadbent)曾提出「選濾論」,他指出人的大腦會過濾從感官接受到的資訊,而過濾的標準是:資訊重要嗎?是否有把注意力集中在該資訊上,如果沒有,這個資訊不會從感覺記憶到短期記憶裡。
Thumbnail
這篇文章想與你分享,我閱讀個人化聯邦強盜文章以後,所產生的思考與理解。 本文章收錄的一個思考與理解如下: 個人化聯邦學習,是有效利用全局模型與局部模型,完成任務。 思考 #1:個人化聯邦學習,是有效利用全局模型與局部模型,完成任務。
Thumbnail
這篇文章想與你分享,我閱讀個人化聯邦強盜文章以後,所產生的思考與理解。 本文章收錄的一個思考與理解如下: 個人化聯邦學習,是有效利用全局模型與局部模型,完成任務。 思考 #1:個人化聯邦學習,是有效利用全局模型與局部模型,完成任務。
Thumbnail
今天是一位非資工系背景商科大學生的第一堂正式演算法課程,老師上課時先讓大家玩了猜數字的遊戲,我用了自己的運氣去猜測數字,才發現自己其實運氣真的不好。 接著我們透過自己所學過的程式語言,寫出了二分搜尋法以及猜數字的遊戲。 我分別用了JS以及Python寫出。
Thumbnail
今天是一位非資工系背景商科大學生的第一堂正式演算法課程,老師上課時先讓大家玩了猜數字的遊戲,我用了自己的運氣去猜測數字,才發現自己其實運氣真的不好。 接著我們透過自己所學過的程式語言,寫出了二分搜尋法以及猜數字的遊戲。 我分別用了JS以及Python寫出。
Thumbnail
我們都以為讀書要專注,實際上,分心比較好! 被《跨能致勝》拿來比較的格拉威爾大作《異數》中有個有名的例子是一名教練可以在網球選手發球前,看出會不會「雙發失誤」,而且屢試不爽,他以為他有預測能力,其實是長期訓練讓他成為專家了。 從這些例子,格拉威爾提出了「1萬小時理論」(我不覺得是定律),就是說要煉成
Thumbnail
我們都以為讀書要專注,實際上,分心比較好! 被《跨能致勝》拿來比較的格拉威爾大作《異數》中有個有名的例子是一名教練可以在網球選手發球前,看出會不會「雙發失誤」,而且屢試不爽,他以為他有預測能力,其實是長期訓練讓他成為專家了。 從這些例子,格拉威爾提出了「1萬小時理論」(我不覺得是定律),就是說要煉成
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News