權重
含有「權重」共 245 篇內容
全部內容
發佈日期由新至舊
慵懶貓系的小墨魚:數據外的日常觀察
2025/09/27
統計分析中的「權重」是什麼?為什麼它如此重要?
在閱讀統計報告或新聞民意調查時,你很可能看過這樣一句話:「本數據已經過加權處理」。你是否曾好奇,這個「加權」到底是什麼魔法?為什麼分析師要刻意去調整數據的影響力? 這篇文章將用生活化的例子,帶你徹底理解「權重」的奧妙。我們不僅會談它「是什麼」,更要談「何時用」以及「怎麼用」
#
權重
#
抽樣
#
R
喜歡
留言
慵懶貓系的小墨魚:數據外的日常觀察
2025/09/26
傾向分數分析:非隨機研究中尋找合適對照組的利器
在實際臨床或觀察性研究中,研究者常面臨一個問題:無法進行隨機分派治療或暴露組,如何在數據中找出一組真正能和案組相匹配、彼此可比的對照組?這時,傾向分數分析(Propensity Score Analysis, PSA)成為一種有效的統計方法,幫助研究者透過數據重現隨機化試驗的效果,降低混淆因子干擾,
#
分數
#
隨機
#
權重
1
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》67/100 PPO vs DQN vs A2C 比較總覽 🧠 選對工具事半功倍!
DQN 適合離散動作,簡單高效但偏高估;A2C 結合策略與價值,支援多環境並行,穩定性中偏高;PPO 引入剪裁更新,穩定性與泛用性最佳,為工業主流。選擇需依任務特性決定,善用工具才能事半功倍。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》66/100 🔥 高效學習 + 高熵探索 = 穩定又聰明!
SAC 演算法結合「最大熵強化學習」與雙 Q 結構,兼顧高效探索與穩定收斂。透過自動調整 α 平衡探索與利用,避免過早收斂,適合連續控制、自駕車與 RLHF 等應用,是當前最穩健主流方法之一。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》65/100 Twin Delayed DDPG(TD3)💡 雙網路控制減少過估計!
TD3 在 DDPG 基礎上引入「雙 Q 網路、延遲更新、策略平滑」三大改進,有效解決過估計與不穩定問題。能在連續控制任務中提供更準確、更穩定的學習表現,已成為取代 DDPG 的主流強化學習方法。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》64/100 🔍 損失函數、剪切範圍與訓練技巧!
PPO 透過剪裁目標函數控制策略更新幅度,結合 Value Loss 與 Entropy Bonus,兼顧穩定、準確與探索。透過適當設定 clip ε、GAE 與 mini-batch SGD,可避免震盪並提升效率,成為強化學習中最穩健高效的主流方法。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》63/100 ⚙️ 最受歡迎的強化學習演算法! PPO(Proximal Policy Optimiz
PPO 以剪裁目標函數取代 TRPO 的複雜限制,兼顧穩定性與簡單性。透過策略比裁剪、GAE 與 mini-batch SGD,能高效更新策略,廣泛應用於遊戲、機器人與對話系統,是現今強化學習的主流方法。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》62/100 TRPO 架構與核心原理 🏛 保證策略改進的穩定性!
TRPO 透過代理目標函數與 KL 散度限制,在「信任區間」內進行小步更新,結合共軛梯度法與線性搜尋,保證策略穩定提升。適合連續控制任務,但實作較複雜、計算成本高,卻在理論上具備穩定改進保障。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》61/100 什麼是 Trust Region Policy Optimization(TRPO)🧠
TRPO 透過限制新舊策略間的 KL 散度,在「信任區間」內小步更新,避免性能退步並提升穩定性。適用於高維連續控制如機器人任務,但實作複雜。理念可類比投資、健身與職涯轉換的漸進式進步。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/25
第三部《強化學習》60/100 第六周小結與測驗:策略學習的力量 🔁 優雅又高效的決策者!
本章統整策略梯度核心:從 REINFORCE 到 Actor-Critic,再到 A2C 與熵正則化,展現如何平衡探索與穩定。透過 LunarLander 與跳跳機器人實作,學習者能理解策略學習在連續與複雜環境中的優勢,為進階演算法奠基。
#
學習
#
模型
#
神經
喜歡
留言