估計
含有「估計」共 55 篇內容
全部內容
發佈日期由新至舊
SafeguardHK的沙龍
2025/10/11
保險公司「解除契約權」的法律陷阱:一過「這個時限」,保戶隱瞞的事實就再也不能追究?
114年財產保險經紀人《保險學概要》第 34 題最大誠信原則法律時效解析 最大誠信原則(Principle of Utmost Good Faith)是保險契約的靈魂,它要求要保人必須履行告知義務,誠實揭露所有影響風險評估的重要事實。當要保人違反這項義務,保險公司便可依據《保險法》第 64 條行使
#
保險公司
#
解除
#
保險法
喜歡
留言
SafeguardHK的沙龍
2025/10/10
定價 1,000 萬的古董花瓶,燒毀後能賠多少?揭秘哪四種保單必須「先說好價值」!
114年財產保險經紀人《保險學概要》第 25 題定值保險原則應用解析 保險契約根據其理賠時對保險標的物價值的認定方式,可以分為兩大類:不定值保險(Unvalued Policy)和定值保險(Valued Policy)。 不定值保險:契約上並未事先約定保險標的物的價值,必須等到危險事故發生後,再
#
保險
#
保險公司
#
商業
喜歡
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》56/100 使用 Baseline 降低方差 📉 訓練更穩定不搖擺!
Baseline 是策略梯度中的穩定化技巧,透過扣除基準值(常用 V(s))減少方差,使學習更穩定快速。它不改變期望,只降低噪音影響,常與 Advantage 結合。應用於投資、控制等任務,可專注於「超越平均」的行為,提升策略效果。
#
學習
#
模型
#
神經
1
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》54/100 基礎 Actor-Critic 架構 🧑🎤「演員」做決策、「評論員」評價表現!
Actor-Critic 結合策略學習與價值估計:Actor 負責決策,Critic 評估行動並提供即時回饋,透過 Advantage 或 TD 誤差降低方差,加快收斂。常見變體如 A2C、A3C、PPO、DDPG 等,廣泛應用於自駕、投資與遊戲。
#
學習
#
模型
#
神經
1
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》53/100 策略梯度與 Q-Learning 比較 ⚖ 行為學習與價值學習的選擇!
Q-Learning 透過學習行動價值(Q 值)來選擇最優行動,收斂快,適合離散任務;策略梯度則直接學習行為策略,適合連續控制與隨機性需求,但方差高、效率較低。兩者各有優缺點,實務上常結合成 Actor-Critic 架構,以兼顧效率與穩定性。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》52/100 REINFORCE 演算法 ✍ 使用樣本策略估計梯度方向!
REINFORCE 是最基本的策略梯度法,透過整集 episode 回報更新策略,強化高回報動作。優點是簡單直觀、適合連續動作;缺點是方差大、收斂慢。加入 baseline 可降低方差,奠定 Actor-Critic 方法基礎。
#
學習
#
估計
#
機率
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》46/100 Doule DQN 🎯 減少 Q 值過度估計問題的絕招!
Double DQN 透過將動作「選擇」與「評估」分離,解決 DQN 中 Q 值過度估計的問題。主網路選動作,目標網路評估價值,避免偏差與不穩定,使學習更穩健,策略更接近真實最優解。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》42/100 用神經網路逼近 Q 函數 📈 將 Q 表格升級為函數估算器!
ChatGPT 說: 傳統 Q 表格難以處理高維狀態空間,DQN 以神經網路逼近 Q 函數,能泛化經驗並學習複雜策略。其核心包含 TD 誤差更新、Replay Buffer 與 Target Network。雖有過度估計與過擬合風險,但應用於遊戲、自駕車、金融等場景展現強大實力。
#
學習
#
模型
#
神經
1
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》35/100 Q-Learning 演算法 💪 強化學習的經典 off-policy 方法!
Q-Learning 是典型 Off-policy TD 控制演算法,核心在最大化未來回報。更新 Q 值時取下一狀態的最大估計值,即使當下行動非最優,仍能收斂至最優策略。適合自駕、金融、博弈等需高效率探索的任務。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》34/100 SARSA 演算法 🧠 On-policy 控制範例教學!
SARSA 是 On-policy TD 控制演算法,更新依賴實際採取的動作,透過 (s,a,r,s′,a′) 修正 Q 值。與 Q-learning 相比更保守穩定,適合高風險或需安全控制的場景,如導航與推薦系統,能逐步累積經驗學得穩健策略。
#
學習
#
模型
#
神經
喜歡
留言