估計
含有「估計」共 53 篇內容
全部內容
發佈日期由新至舊
Hansen W的沙龍
2025/09/25
第三部《強化學習》56/100 使用 Baseline 降低方差 📉 訓練更穩定不搖擺!
Baseline 是策略梯度中的穩定化技巧,透過扣除基準值(常用 V(s))減少方差,使學習更穩定快速。它不改變期望,只降低噪音影響,常與 Advantage 結合。應用於投資、控制等任務,可專注於「超越平均」的行為,提升策略效果。
#
學習
#
模型
#
神經
1
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》54/100 基礎 Actor-Critic 架構 🧑🎤「演員」做決策、「評論員」評價表現!
Actor-Critic 結合策略學習與價值估計:Actor 負責決策,Critic 評估行動並提供即時回饋,透過 Advantage 或 TD 誤差降低方差,加快收斂。常見變體如 A2C、A3C、PPO、DDPG 等,廣泛應用於自駕、投資與遊戲。
#
學習
#
模型
#
神經
1
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》53/100 策略梯度與 Q-Learning 比較 ⚖ 行為學習與價值學習的選擇!
Q-Learning 透過學習行動價值(Q 值)來選擇最優行動,收斂快,適合離散任務;策略梯度則直接學習行為策略,適合連續控制與隨機性需求,但方差高、效率較低。兩者各有優缺點,實務上常結合成 Actor-Critic 架構,以兼顧效率與穩定性。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》52/100 REINFORCE 演算法 ✍ 使用樣本策略估計梯度方向!
REINFORCE 是最基本的策略梯度法,透過整集 episode 回報更新策略,強化高回報動作。優點是簡單直觀、適合連續動作;缺點是方差大、收斂慢。加入 baseline 可降低方差,奠定 Actor-Critic 方法基礎。
#
學習
#
估計
#
機率
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》46/100 Doule DQN 🎯 減少 Q 值過度估計問題的絕招!
Double DQN 透過將動作「選擇」與「評估」分離,解決 DQN 中 Q 值過度估計的問題。主網路選動作,目標網路評估價值,避免偏差與不穩定,使學習更穩健,策略更接近真實最優解。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》42/100 用神經網路逼近 Q 函數 📈 將 Q 表格升級為函數估算器!
ChatGPT 說: 傳統 Q 表格難以處理高維狀態空間,DQN 以神經網路逼近 Q 函數,能泛化經驗並學習複雜策略。其核心包含 TD 誤差更新、Replay Buffer 與 Target Network。雖有過度估計與過擬合風險,但應用於遊戲、自駕車、金融等場景展現強大實力。
#
學習
#
模型
#
神經
1
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》35/100 Q-Learning 演算法 💪 強化學習的經典 off-policy 方法!
Q-Learning 是典型 Off-policy TD 控制演算法,核心在最大化未來回報。更新 Q 值時取下一狀態的最大估計值,即使當下行動非最優,仍能收斂至最優策略。適合自駕、金融、博弈等需高效率探索的任務。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》34/100 SARSA 演算法 🧠 On-policy 控制範例教學!
SARSA 是 On-policy TD 控制演算法,更新依賴實際採取的動作,透過 (s,a,r,s′,a′) 修正 Q 值。與 Q-learning 相比更保守穩定,適合高風險或需安全控制的場景,如導航與推薦系統,能逐步累積經驗學得穩健策略。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》31/100 時序差分學習 TD(0) ⏱ 綜合 MC 與動態規劃的橋梁!
TD(0) 是結合蒙地卡羅與動態規劃優點的強化學習方法,可在每步即時更新狀態價值,提升效率並適用持續任務。雖能快速收斂,但易受預測偏差影響,需調整學習率與探索策略。它是 DQN、Actor-Critic 等演算法的重要基礎。
#
學習
#
模型
#
神經
1
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》25/100 採樣策略與重要性修正 🧮 現實與目標策略的權衡!
重要性修正是離策略學習的核心,透過加權方式將行為策略 μ 的樣本轉換為目標策略 π 的估值。普通方法雖無偏卻變異大,加權法則收斂更穩定。此技術能在僅有歷史資料或無法頻繁試驗的情境下,有效訓練與評估新策略。
#
學習
#
模型
#
神經
喜歡
留言