SARS

含有「SARS」共 89 篇內容
全部內容
發佈日期由新至舊
時序差分方法透過 TD 誤差實現即時學習,不需完整模型即可邊互動邊更新。SARSA 保守穩定,適合高風險任務;Q-Learning 激進高效,收斂較快。TD(λ) 融合短期與長期回饋,加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。
GridWorld 是強化學習的經典迷宮實驗環境,智慧體透過試錯學習避開陷阱並找到最短路徑。搭配 Q-Learning 或 SARSA 演算法與 ε-greedy 策略,AI 能逐步收斂至最佳決策。此實作展示了強化學習核心流程,並可延伸至機器人、自駕車與遊戲 AI。
SARSA 與 Q-Learning 皆為 TD 控制演算法,差異在於策略依賴:SARSA 為 On-policy,更新與實際行動一致,保守穩定,適合高風險任務;Q-Learning 為 Off-policy,追求最大回報,學得快但較激進,適合遊戲與商業決策。選擇取決於任務風險承受度與目標需求。
Q-Learning 是典型 Off-policy TD 控制演算法,核心在最大化未來回報。更新 Q 值時取下一狀態的最大估計值,即使當下行動非最優,仍能收斂至最優策略。適合自駕、金融、博弈等需高效率探索的任務。
SARSA 是 On-policy TD 控制演算法,更新依賴實際採取的動作,透過 (s,a,r,s′,a′) 修正 Q 值。與 Q-learning 相比更保守穩定,適合高風險或需安全控制的場景,如導航與推薦系統,能逐步累積經驗學得穩健策略。
On-policy 使用自身策略互動學習,穩健安全但效率較低;Off-policy 可用他人或歷史資料學習目標策略,效率高但可能不穩定。典型例子是 SARSA 與 Q-Learning,前者依實際行為更新,後者追求理想最優。兩者各有應用價值,實務常結合運用。
重要性修正是離策略學習的核心,透過加權方式將行為策略 μ 的樣本轉換為目標策略 π 的估值。普通方法雖無偏卻變異大,加權法則收斂更穩定。此技術能在僅有歷史資料或無法頻繁試驗的情境下,有效訓練與評估新策略。
付費限定
如果你現在正在猶豫要不要買房,這篇文章不是要說服你買。
臺灣生技產業具有發展「護臺神山」的潛力,癌症用藥市場商機龐大。本文介紹劉夷生醫師及其投入的ABVC集團,該集團整合醫藥、長照服務與科技數據,打造全臺首創的癌症康養服務體系,並將於納斯達克上市。
Thumbnail
炎炎夏日,躲避酷暑的童年回憶。從童年裝病逃避悶熱的經驗,到成為人父後反思自身行為,體悟誠實面對自己的重要性。
Thumbnail