UCB1

含有「UCB1」共 1 篇內容
全部內容
發佈日期由新至舊
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。 正文 下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban