估計

含有「估計」共 55 篇內容
全部內容
發佈日期由新至舊
114年財產保險經紀人《保險學概要》第 34 題最大誠信原則法律時效解析 最大誠信原則(Principle of Utmost Good Faith)是保險契約的靈魂,它要求要保人必須履行告知義務,誠實揭露所有影響風險評估的重要事實。當要保人違反這項義務,保險公司便可依據《保險法》第 64 條行使
114年財產保險經紀人《保險學概要》第 25 題定值保險原則應用解析 保險契約根據其理賠時對保險標的物價值的認定方式,可以分為兩大類:不定值保險(Unvalued Policy)和定值保險(Valued Policy)。 不定值保險:契約上並未事先約定保險標的物的價值,必須等到危險事故發生後,再
Baseline 是策略梯度中的穩定化技巧,透過扣除基準值(常用 V(s))減少方差,使學習更穩定快速。它不改變期望,只降低噪音影響,常與 Advantage 結合。應用於投資、控制等任務,可專注於「超越平均」的行為,提升策略效果。
Actor-Critic 結合策略學習與價值估計:Actor 負責決策,Critic 評估行動並提供即時回饋,透過 Advantage 或 TD 誤差降低方差,加快收斂。常見變體如 A2C、A3C、PPO、DDPG 等,廣泛應用於自駕、投資與遊戲。
Q-Learning 透過學習行動價值(Q 值)來選擇最優行動,收斂快,適合離散任務;策略梯度則直接學習行為策略,適合連續控制與隨機性需求,但方差高、效率較低。兩者各有優缺點,實務上常結合成 Actor-Critic 架構,以兼顧效率與穩定性。
REINFORCE 是最基本的策略梯度法,透過整集 episode 回報更新策略,強化高回報動作。優點是簡單直觀、適合連續動作;缺點是方差大、收斂慢。加入 baseline 可降低方差,奠定 Actor-Critic 方法基礎。
Double DQN 透過將動作「選擇」與「評估」分離,解決 DQN 中 Q 值過度估計的問題。主網路選動作,目標網路評估價值,避免偏差與不穩定,使學習更穩健,策略更接近真實最優解。
ChatGPT 說: 傳統 Q 表格難以處理高維狀態空間,DQN 以神經網路逼近 Q 函數,能泛化經驗並學習複雜策略。其核心包含 TD 誤差更新、Replay Buffer 與 Target Network。雖有過度估計與過擬合風險,但應用於遊戲、自駕車、金融等場景展現強大實力。
Q-Learning 是典型 Off-policy TD 控制演算法,核心在最大化未來回報。更新 Q 值時取下一狀態的最大估計值,即使當下行動非最優,仍能收斂至最優策略。適合自駕、金融、博弈等需高效率探索的任務。
SARSA 是 On-policy TD 控制演算法,更新依賴實際採取的動作,透過 (s,a,r,s′,a′) 修正 Q 值。與 Q-learning 相比更保守穩定,適合高風險或需安全控制的場景,如導航與推薦系統,能逐步累積經驗學得穩健策略。