權重

含有「權重」共 245 篇內容
全部內容
發佈日期由新至舊
在閱讀統計報告或新聞民意調查時,你很可能看過這樣一句話:「本數據已經過加權處理」。你是否曾好奇,這個「加權」到底是什麼魔法?為什麼分析師要刻意去調整數據的影響力? 這篇文章將用生活化的例子,帶你徹底理解「權重」的奧妙。我們不僅會談它「是什麼」,更要談「何時用」以及「怎麼用」
Thumbnail
在實際臨床或觀察性研究中,研究者常面臨一個問題:無法進行隨機分派治療或暴露組,如何在數據中找出一組真正能和案組相匹配、彼此可比的對照組?這時,傾向分數分析(Propensity Score Analysis, PSA)成為一種有效的統計方法,幫助研究者透過數據重現隨機化試驗的效果,降低混淆因子干擾,
Thumbnail
DQN 適合離散動作,簡單高效但偏高估;A2C 結合策略與價值,支援多環境並行,穩定性中偏高;PPO 引入剪裁更新,穩定性與泛用性最佳,為工業主流。選擇需依任務特性決定,善用工具才能事半功倍。
SAC 演算法結合「最大熵強化學習」與雙 Q 結構,兼顧高效探索與穩定收斂。透過自動調整 α 平衡探索與利用,避免過早收斂,適合連續控制、自駕車與 RLHF 等應用,是當前最穩健主流方法之一。
TD3 在 DDPG 基礎上引入「雙 Q 網路、延遲更新、策略平滑」三大改進,有效解決過估計與不穩定問題。能在連續控制任務中提供更準確、更穩定的學習表現,已成為取代 DDPG 的主流強化學習方法。
PPO 透過剪裁目標函數控制策略更新幅度,結合 Value Loss 與 Entropy Bonus,兼顧穩定、準確與探索。透過適當設定 clip ε、GAE 與 mini-batch SGD,可避免震盪並提升效率,成為強化學習中最穩健高效的主流方法。
PPO 以剪裁目標函數取代 TRPO 的複雜限制,兼顧穩定性與簡單性。透過策略比裁剪、GAE 與 mini-batch SGD,能高效更新策略,廣泛應用於遊戲、機器人與對話系統,是現今強化學習的主流方法。
TRPO 透過代理目標函數與 KL 散度限制,在「信任區間」內進行小步更新,結合共軛梯度法與線性搜尋,保證策略穩定提升。適合連續控制任務,但實作較複雜、計算成本高,卻在理論上具備穩定改進保障。
TRPO 透過限制新舊策略間的 KL 散度,在「信任區間」內小步更新,避免性能退步並提升穩定性。適用於高維連續控制如機器人任務,但實作複雜。理念可類比投資、健身與職涯轉換的漸進式進步。
本章統整策略梯度核心:從 REINFORCE 到 Actor-Critic,再到 A2C 與熵正則化,展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作,學習者能理解策略學習在連續與複雜環境中的優勢,為進階演算法奠基。