筆記-強化式學習名詞解釋:"回饋值"、"回報值"、"價值"

閱讀時間約 2 分鐘

前言

最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網查以及詢問ChatGPT,得到的答案。



正文

強化式學習的術語有:"代理人(agent)"、"環境(environment)"、"動作(action)"、"狀態(state)"、"回饋值(reward)"、"策略(policy)"、"回報值(return)"、"價值(value)"等。讓我困惑的是"回饋值"、"回報值"、"價值"。以下紀錄我找到並整理後的答案。


"回饋值"是指代理人(也就是主體)在某個狀態下做某個動作得到的回饋,例如:在遊戲中,角色吃到一個食物獲得 +10 分,碰到障礙物獲得 -10 分。


"回報值"是從某一時間 t 開始,直到最終所獲得的累積回饋值的和。它考慮了從現在到未來的所有回饋值,並引入折現因子(discount factor)來對未來的回饋值進行折現,以反映未來的不確定性。由於折現因子介於0和1之間,會對比較遠產生的回饋值打越多折,所以會有比教靠近現在產生的回饋值的重要性比較大的現象,可參考快速入門強化學習(Reinforcement Learning)的3.1章節。


"價值"就是期望回報值(expected return),它代表了在給定策略下代理人從當前狀態開始,到未來所有時間的累積回報值的期望值。由於強化學習環境通常具有隨機性和不確定性,因此未來的回報值並不是確定的,而是隨機變量的期望值。它的算法是由策略和狀態轉移機率和折現因子,去和回饋值相乘加總而得,像是在計算期望值。


這裡不紀錄計算公式,可參考快速入門強化學習(Reinforcement Learning);且裡面介紹了強化式學習演算法的理論基礎—馬可夫決策過程,作者寫得詳細又清楚,我還沒看完就加入書籤了(XD)。



參考



小結

會繼續閱讀此書,並將過程中由疑問找到解答的資料記錄下來,除了給其他人參考之外,自己以後再有一樣的疑惑時可以回來翻閱。


留言0
查看全部
發表第一個留言支持創作者!
柴郡貓姍蒂的沙龍 的其他內容
作畫-敬蘇軾
閱讀時間約 1 分鐘
廢文-5
閱讀時間約 1 分鐘
作畫-安息
閱讀時間約 1 分鐘
廢文-6
閱讀時間約 1 分鐘
作畫-心,回家
閱讀時間約 1 分鐘
廢文-7
閱讀時間約 1 分鐘
你可能也想看
創作者要怎麼好好休息 + 避免工作過量?《黑貓創作報#4》午安,最近累不累? 這篇不是虛假的關心。而是《黑貓創作報》發行以來可能最重要的一篇。 是的,我們這篇講怎麼補充能量,也就是怎麼休息。
Thumbnail
avatar
黑貓老師
2024-06-29
防曬產品係數測試報告彙整(2024年)從2014年起,自己對於市售防曬產品的效能產生了濃厚的興趣。因為當時候發現不少產品的防曬係數其實標示是有問題的,像是原本應該是人體測試的SPF與PA數值,實際上沒有做,只用機器測試的數據來充當,但這兩者卻有很大的差異。像是防曬係數其實有強度、廣度與平均度三個面向需要一起判斷,但多數廠商並沒有完整標示
Thumbnail
avatar
邱品齊皮膚科醫師
2023-04-27
閱讀筆記《頭腦好的人說話前思考的事》★「有好好思考的人」和「沒在思考的人」的差異, 不在於思考的量,而在於思考的「質」!
Thumbnail
avatar
偶希都理
2024-06-05
《美國神話的終結:從擴張的邊疆到美墨邊境牆,直視美國歷史的黑暗根源》閱讀筆記  本書討論美國擴張主義的歷史淵源及其演變。問題包括:為什麼美國總在不斷擴張,有時甚至直接介入干涉其他國家的事務?美國的擴張主義是怎樣形成的?這種擴張與它的歷史之間又具有什麼樣的關係?本書描述了美國征伐與暴力的歷史,也讓我們重新省視自己對美國的想像與認知。
Thumbnail
avatar
知識拼圖:Z的閱讀紀錄
2024-04-14
閱讀筆記《懲罰貧窮:大數據橫行的自動化時代,隱藏在演算法之下的不平等歧視》★看似客觀中立的機器運算,可能在學習人類提供的資料後,再複製社會偏見與歧視,形成「自動不平等」!
Thumbnail
avatar
偶希都理
2024-01-15
【利用GPT強化知識管理:如何透過翻譯和問題引導,提升閱讀與筆記效率的3個策略】最近, 你在使用GPT來輔助閱讀和知識管理方面做了一些有趣的嘗試。 將外文文獻翻譯成繁體中文, 並添加標題以提升理解, 這種方法不僅讓閱讀變得更容易, 而且還能幫助你在數位筆記中有效地整理和思考信息。 以下是三個策略, 幫助你進一步利用GPT來提升你的學習和筆記效率。 ▋策略1 -
avatar
王啟樺
2023-12-11
《記憶強化全攻略》閱讀筆記:如何鍛鍊出強大的記憶力對於大多數人來說,忘記是正常的一件事。但我們如果想要擁有強大的記憶力要如何做呢?《記憶強化全攻略》將簡淺易懂地告訴你關於記憶力的各種知
Thumbnail
avatar
Chris | 超閱者
2023-10-05
9/31EP84【手感筆記】選股邏輯相近時,談話就會熱絡起來!想像錢是你珍貴的孩子!《金錢的真理》(5)親戚A分享自己近期買的小宅, 權狀只有二十坪,真的不大其實,高齡化社會早已不只在新聞標題中,這話題也開始漸漸出現在你我身邊,這位親戚A買得的是退休宅,原本住雙北老舊公寓,因為在四樓,她親眼見證,自己的婆婆,因高齡九十多歲,膝蓋不堪負擔,所以,終日無法下樓,過往喜歡逛百貨的婆婆,現在的一日三餐,全依賴
Thumbnail
avatar
社畜逃脫筆記(小倉鼠)
2023-09-29
《卡片筆記寫作法》建立自己的書寫程序,可以強化記憶並產生二階效應就算是書寫筆記,抑制了遺忘的速度,但是終究會因沒有使用而讓記憶生疏。
Thumbnail
avatar
marcelmarcel的閱讀頻道
2023-07-23
【筆記】日本擬推新制「政府安全保障能力強化支援」(OSA)具體內容是什麼?日本即將在近期公開「政府安全保障能力強化支援」(Official Security Assistance, OSA)新制內容,可望為提供友軍防衛裝備或軍事協助開一道側門。本文將以5個問題介紹目前已知的「政府安全保障能力強化支援」內容是什麼。
Thumbnail
avatar
張郁婕(CHANG, Yu-Chieh)
2023-04-03
閱讀筆記《刪到只剩二十字:用一個強而有力的訊息打動對方,寫文案和說話都用得到的高概念溝通術》★只用二十字傳達最重要的訊息,七秒吸睛、三十秒擄獲人心,讓目標對象立刻下單、採取行動! ●徹底刪除贅字,訊息就會簡單易懂。 ●KISS原則(Keep It Simple,Stupid,Keep It Simple,Short)取其首字,意思是簡潔表達。
avatar
偶希都理
2022-06-06
📚 閱讀筆記【24小時全為己用】第四章 用飲食與運動強化腦力 4-3小摘要 意志力最高的三個時段 (1) 剛起床沒多久 (2) 肚子有點餓時 (3) 剛運動完,可安排重要任務,產能會大爆發。 飲食與運動可強化腦力 (1) 增加喝水量:大腦約80%都是水分,保持大腦的濕度十分重要,即使不口渴都要刻意攝取水份。 印象深刻的部分 #圖卡筆記 #24小時全為己用
Thumbnail
avatar
大吉嶺|閱讀行動派
2022-06-05