筆記-強化式學習名詞解釋："回饋值"、"回報值"、"價值"

更新於 2024/07/03發佈於 2024/06/08閱讀時間約 2 分鐘

前言

最近開始讀《強化式學習：打造最強 AlphaZero 通用演算法》這本書，AlphaZero是AlphaGo的改良升級版，而AlphaGo打敗了世界頂尖圍棋棋士，這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時，遇到不懂的名詞解釋，上網查以及詢問ChatGPT，得到的答案。

正文

強化式學習的術語有："代理人(agent)"、"環境(environment)"、"動作(action)"、"狀態(state)"、"回饋值(reward)"、"策略(policy)"、"回報值(return)"、"價值(value)"等。讓我困惑的是"回饋值"、"回報值"、"價值"。以下紀錄我找到並整理後的答案。

"回饋值"是指代理人(也就是主體)在某個狀態下做某個動作得到的回饋，例如：在遊戲中，角色吃到一個食物獲得 +10 分，碰到障礙物獲得 -10 分。

"回報值"是從某一時間 t 開始，直到最終所獲得的累積回饋值的和。它考慮了從現在到未來的所有回饋值，並引入折現因子(discount factor)來對未來的回饋值進行折現，以反映未來的不確定性。由於折現因子介於0和1之間，會對比較遠產生的回饋值打越多折，所以會有比教靠近現在產生的回饋值的重要性比較大的現象，可參考快速入門強化學習（Reinforcement Learning）的3.1章節。

"價值"就是期望回報值(expected return)，它代表了在給定策略下代理人從當前狀態開始，到未來所有時間的累積回報值的期望值。由於強化學習環境通常具有隨機性和不確定性，因此未來的回報值並不是確定的，而是隨機變量的期望值。它的算法是由策略和狀態轉移機率和折現因子，去和回饋值相乘加總而得，像是在計算期望值。

這裡不紀錄計算公式，可參考快速入門強化學習（Reinforcement Learning）；且裡面介紹了強化式學習演算法的理論基礎—馬可夫決策過程，作者寫得詳細又清楚，我還沒看完就加入書籤了(XD)。

參考

快速入門強化學習（Reinforcement Learning）—Yeecy
《強化式學習：打造最強 AlphaZero 通用演算法》
ChatGPT

小結

會繼續閱讀此書，並將過程中由疑問找到解答的資料記錄下來，除了給其他人參考之外，自己以後再有一樣的疑惑時可以回來翻閱。

柴郡貓姍蒂的沙龍

48會員

25內容數

留言

留言分享你的想法！

柴郡貓姍蒂的沙龍的其他內容

筆記-網路文章閱讀：時間序列預測

前言最近在研究時間序列的預測，除了上課，也有在Medium上看文章，學到一些知識，除了自己做筆記記錄，也分享給大家。本篇筆記為翻譯統整：Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH，這篇Me

#人工智慧 #AI #時間序列預測

筆記-強化式學習演算法簡介："Policy Gradient"

前言跟上一篇文章一樣，都是看到陌生的演算法後，去搜尋資料記錄成文章。正文在強化式學習中，策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針，具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略，使得整個任務的回報值最大化。

#PolicyGradient #AI #人工智慧

筆記-強化式學習演算法簡介："ε - greedy"、"UCB1"

前言在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》一書時，對一些沒有聽過的演算法感到陌生，基於打基礎或是增廣見聞的念頭下，上網或問ChatGPT，搜尋了一些資料，整理並紀錄而成這篇文章。正文下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban

#EpsilonGreedy #UCB1 #AI