筆記-強化式學習名詞解釋:"回饋值"、"回報值"、"價值"

更新於 發佈於 閱讀時間約 2 分鐘

前言

最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網查以及詢問ChatGPT,得到的答案。



正文

強化式學習的術語有:"代理人(agent)"、"環境(environment)"、"動作(action)"、"狀態(state)"、"回饋值(reward)"、"策略(policy)"、"回報值(return)"、"價值(value)"等。讓我困惑的是"回饋值"、"回報值"、"價值"。以下紀錄我找到並整理後的答案。


"回饋值"是指代理人(也就是主體)在某個狀態下做某個動作得到的回饋,例如:在遊戲中,角色吃到一個食物獲得 +10 分,碰到障礙物獲得 -10 分。


"回報值"是從某一時間 t 開始,直到最終所獲得的累積回饋值的和。它考慮了從現在到未來的所有回饋值,並引入折現因子(discount factor)來對未來的回饋值進行折現,以反映未來的不確定性。由於折現因子介於0和1之間,會對比較遠產生的回饋值打越多折,所以會有比教靠近現在產生的回饋值的重要性比較大的現象,可參考快速入門強化學習(Reinforcement Learning)的3.1章節。


"價值"就是期望回報值(expected return),它代表了在給定策略下代理人從當前狀態開始,到未來所有時間的累積回報值的期望值。由於強化學習環境通常具有隨機性和不確定性,因此未來的回報值並不是確定的,而是隨機變量的期望值。它的算法是由策略和狀態轉移機率和折現因子,去和回饋值相乘加總而得,像是在計算期望值。


這裡不紀錄計算公式,可參考快速入門強化學習(Reinforcement Learning);且裡面介紹了強化式學習演算法的理論基礎—馬可夫決策過程,作者寫得詳細又清楚,我還沒看完就加入書籤了(XD)。



參考



小結

會繼續閱讀此書,並將過程中由疑問找到解答的資料記錄下來,除了給其他人參考之外,自己以後再有一樣的疑惑時可以回來翻閱。


留言0
查看全部
avatar-img
發表第一個留言支持創作者!
柴郡貓姍蒂的沙龍 的其他內容
好久沒回來這裡了。因為是家中長女,父親身障,不得不回到工程師身份工作。於去年經歷了一份主管很奇怪的公司工作(可以看我之前的文章"廢文-2")離開後,在年底應徵上了一家公司的後端工程師工作,在裡面待一直到現在(還會繼續待下去啦XD)。 今天因為身體不舒服向公司請假,也思考了現在的狀況以及未來的方向。
印象很深刻。那天擺攤,一位美甲師來我的攤位,挑的不是卡片,是粉絲團按讚的贈品,畫的主題是:"回家路上",我想她是一個有故事的人。聯想到林俊傑的一首歌:《不流淚的機場》,裡面唱到:"往前跑的人需要,擺脫遺憾的藥"。於是我將遊子出外打拼,五味雜陳的心情,用畫記錄下來。畫中遊子搭著飛機離開一個地方,不知道
雖然我的畫齡沒有很長,也不是專家,但我一直告訴自己:"不要忘記最一開始的自己"。 不知道是從哪裡知道這句話,大意上好像是說:"藝術家們到最後最難模仿的是一開始的自己"。這我個人覺得可以從幾個藝術家(不一定是繪畫方面)身上觀察到。 所以我跟自己說:"要記得畫畫的初心,要記得自己為什麼而畫"
向疫情、戰爭、人禍、天災離世的亡魂致意,安息吧,R.I.P.
總是不夠勇敢, 在道義面前輸給了面子, 下次一定要正面迎擊! 然後呀,覺得自己有進步, 只要不愧對自己的心, 不用刻意討好別人也沒關係, 要說就讓他們去說吧!
還記得那個失眠的夜晚,在床上翻來覆去睡不著覺,索性拿起床頭的手機和耳機來聽歌,想起不久前媽媽在客廳播的老歌—鄧麗君的《但願人長久》,於是就在YouTube上搜尋並聽了起來。 聽著聽著,腦中突然閃過一個想法:"我可以借這首歌的意境作一幅畫呀!",就這樣開始構思畫面。想到古人以酒敬月,而這首歌歌詞又是
好久沒回來這裡了。因為是家中長女,父親身障,不得不回到工程師身份工作。於去年經歷了一份主管很奇怪的公司工作(可以看我之前的文章"廢文-2")離開後,在年底應徵上了一家公司的後端工程師工作,在裡面待一直到現在(還會繼續待下去啦XD)。 今天因為身體不舒服向公司請假,也思考了現在的狀況以及未來的方向。
印象很深刻。那天擺攤,一位美甲師來我的攤位,挑的不是卡片,是粉絲團按讚的贈品,畫的主題是:"回家路上",我想她是一個有故事的人。聯想到林俊傑的一首歌:《不流淚的機場》,裡面唱到:"往前跑的人需要,擺脫遺憾的藥"。於是我將遊子出外打拼,五味雜陳的心情,用畫記錄下來。畫中遊子搭著飛機離開一個地方,不知道
雖然我的畫齡沒有很長,也不是專家,但我一直告訴自己:"不要忘記最一開始的自己"。 不知道是從哪裡知道這句話,大意上好像是說:"藝術家們到最後最難模仿的是一開始的自己"。這我個人覺得可以從幾個藝術家(不一定是繪畫方面)身上觀察到。 所以我跟自己說:"要記得畫畫的初心,要記得自己為什麼而畫"
向疫情、戰爭、人禍、天災離世的亡魂致意,安息吧,R.I.P.
總是不夠勇敢, 在道義面前輸給了面子, 下次一定要正面迎擊! 然後呀,覺得自己有進步, 只要不愧對自己的心, 不用刻意討好別人也沒關係, 要說就讓他們去說吧!
還記得那個失眠的夜晚,在床上翻來覆去睡不著覺,索性拿起床頭的手機和耳機來聽歌,想起不久前媽媽在客廳播的老歌—鄧麗君的《但願人長久》,於是就在YouTube上搜尋並聽了起來。 聽著聽著,腦中突然閃過一個想法:"我可以借這首歌的意境作一幅畫呀!",就這樣開始構思畫面。想到古人以酒敬月,而這首歌歌詞又是
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
1. 持續學習:學習是提升圍棋水平最重要的一環。閱讀圍棋書籍、觀看專業比賽、參加圍棋課程等都是不錯的方法。選擇一個合適的學習方式,並持之以恆。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
韓國圍棋九段李世乭與AlphaGo的對弈已經三連敗,可以大膽預期,接下來的兩戰也差不多,甚至AlphaGo將全世界各地的棋王都打敗,我也不覺得奇怪。3個月前,能在圍棋盤上戰勝AlphaGo的人類可能已經不到千人了。未來無人能敵也只是時間的問題,AlphaGo已然成為全世界最會下棋的「超級電腦
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
1. 持續學習:學習是提升圍棋水平最重要的一環。閱讀圍棋書籍、觀看專業比賽、參加圍棋課程等都是不錯的方法。選擇一個合適的學習方式,並持之以恆。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
韓國圍棋九段李世乭與AlphaGo的對弈已經三連敗,可以大膽預期,接下來的兩戰也差不多,甚至AlphaGo將全世界各地的棋王都打敗,我也不覺得奇怪。3個月前,能在圍棋盤上戰勝AlphaGo的人類可能已經不到千人了。未來無人能敵也只是時間的問題,AlphaGo已然成為全世界最會下棋的「超級電腦