強化式學習
含有「強化式學習」共 3 篇內容
全部內容
發佈日期由新至舊
柴郡貓姍蒂的沙龍
2024/10/09
筆記-強化式學習演算法簡介:"Policy Gradient"
前言 跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。 正文 在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。
#
PolicyGradient
#
AI
#
人工智慧
22
留言
柴郡貓姍蒂的沙龍
2024/10/05
筆記-強化式學習演算法簡介:"ε - greedy"、"UCB1"
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。 正文 下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban
#
EpsilonGreedy
#
UCB1
#
AI
36
留言
柴郡貓姍蒂的沙龍
2024/06/08
筆記-強化式學習名詞解釋:"回饋值"、"回報值"、"價值"
前言 最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網
#
強化式學習
#
名詞解釋
#
閱讀筆記
10
留言