SARS
含有「SARS」共 89 篇內容
全部內容
發佈日期由新至舊
Hansen W的沙龍
2025/09/24
第三部《強化學習》40/100 第四周小結與測驗:TD 方法的應用場景與限制 📌 理清適用場域!
時序差分方法透過 TD 誤差實現即時學習,不需完整模型即可邊互動邊更新。SARSA 保守穩定,適合高風險任務;Q-Learning 激進高效,收斂較快。TD(λ) 融合短期與長期回饋,加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。
#
學習
#
模型
#
神經
1
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》38/100 控制遊戲實作:GridWorld 迷宮走法 🧭 訓練會走的 AI!
GridWorld 是強化學習的經典迷宮實驗環境,智慧體透過試錯學習避開陷阱並找到最短路徑。搭配 Q-Learning 或 SARSA 演算法與 ε-greedy 策略,AI 能逐步收斂至最佳決策。此實作展示了強化學習核心流程,並可延伸至機器人、自駕車與遊戲 AI。
#
學習
#
化學
#
陷阱
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》36/100 比較 SARSA 與 Q-Learning 🆚 誰更適合你的任務?
SARSA 與 Q-Learning 皆為 TD 控制演算法,差異在於策略依賴:SARSA 為 On-policy,更新與實際行動一致,保守穩定,適合高風險任務;Q-Learning 為 Off-policy,追求最大回報,學得快但較激進,適合遊戲與商業決策。選擇取決於任務風險承受度與目標需求。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》35/100 Q-Learning 演算法 💪 強化學習的經典 off-policy 方法!
Q-Learning 是典型 Off-policy TD 控制演算法,核心在最大化未來回報。更新 Q 值時取下一狀態的最大估計值,即使當下行動非最優,仍能收斂至最優策略。適合自駕、金融、博弈等需高效率探索的任務。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》34/100 SARSA 演算法 🧠 On-policy 控制範例教學!
SARSA 是 On-policy TD 控制演算法,更新依賴實際採取的動作,透過 (s,a,r,s′,a′) 修正 Q 值。與 Q-learning 相比更保守穩定,適合高風險或需安全控制的場景,如導航與推薦系統,能逐步累積經驗學得穩健策略。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》26/100 On-policy 與 Off-policy 比較 🧭 學自己的策略還是別人的?
On-policy 使用自身策略互動學習,穩健安全但效率較低;Off-policy 可用他人或歷史資料學習目標策略,效率高但可能不穩定。典型例子是 SARSA 與 Q-Learning,前者依實際行為更新,後者追求理想最優。兩者各有應用價值,實務常結合運用。
#
學習
#
模型
#
神經
喜歡
留言
Hansen W的沙龍
2025/09/24
第三部《強化學習》25/100 採樣策略與重要性修正 🧮 現實與目標策略的權衡!
重要性修正是離策略學習的核心,透過加權方式將行為策略 μ 的樣本轉換為目標策略 π 的估值。普通方法雖無偏卻變異大,加權法則收斂更穩定。此技術能在僅有歷史資料或無法頻繁試驗的情境下,有效訓練與評估新策略。
#
學習
#
模型
#
神經
喜歡
留言
付費限定
‹思›語室
2025/08/27
我爸說他這輩子最後悔的,就是沒有貸款買第二間房-投資進行式EP08
如果你現在正在猶豫要不要買房,這篇文章不是要說服你買。
#
文章
#
對話
#
力量
喜歡
留言
全球財經專業評論的沙龍
2025/07/24
劉夷生醫師授課跨領域整合,ABVC集團開啟全球癌症治療新世代
臺灣生技產業具有發展「護臺神山」的潛力,癌症用藥市場商機龐大。本文介紹劉夷生醫師及其投入的ABVC集團,該集團整合醫藥、長照服務與科技數據,打造全臺首創的癌症康養服務體系,並將於納斯達克上市。
#
ABVC
#
AiBtl
#
OncoX
1
留言
Yuan的沙龍
2025/07/06
《冷氣房裡的病》
炎炎夏日,躲避酷暑的童年回憶。從童年裝病逃避悶熱的經驗,到成為人父後反思自身行為,體悟誠實面對自己的重要性。
#
冷氣
#
裝病
#
媽媽
3
留言