SARS

第三部《強化學習》40/100 第四周小結與測驗：TD 方法的應用場景與限制 📌 理清適用場域！

時序差分方法透過 TD 誤差實現即時學習，不需完整模型即可邊互動邊更新。SARSA 保守穩定，適合高風險任務；Q-Learning 激進高效，收斂較快。TD(λ) 融合短期與長期回饋，加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。

第三部《強化學習》38/100 控制遊戲實作：GridWorld 迷宮走法 🧭 訓練會走的 AI！

GridWorld 是強化學習的經典迷宮實驗環境，智慧體透過試錯學習避開陷阱並找到最短路徑。搭配 Q-Learning 或 SARSA 演算法與 ε-greedy 策略，AI 能逐步收斂至最佳決策。此實作展示了強化學習核心流程，並可延伸至機器人、自駕車與遊戲 AI。

#學習 #化學 #陷阱

第三部《強化學習》36/100 比較 SARSA 與 Q-Learning 🆚 誰更適合你的任務？

SARSA 與 Q-Learning 皆為 TD 控制演算法，差異在於策略依賴：SARSA 為 On-policy，更新與實際行動一致，保守穩定，適合高風險任務；Q-Learning 為 Off-policy，追求最大回報，學得快但較激進，適合遊戲與商業決策。選擇取決於任務風險承受度與目標需求。

第三部《強化學習》35/100 Q-Learning 演算法 💪 強化學習的經典 off-policy 方法！

Q-Learning 是典型 Off-policy TD 控制演算法，核心在最大化未來回報。更新 Q 值時取下一狀態的最大估計值，即使當下行動非最優，仍能收斂至最優策略。適合自駕、金融、博弈等需高效率探索的任務。

第三部《強化學習》34/100 SARSA 演算法 🧠 On-policy 控制範例教學！

SARSA 是 On-policy TD 控制演算法，更新依賴實際採取的動作，透過 (s,a,r,s′,a′) 修正 Q 值。與 Q-learning 相比更保守穩定，適合高風險或需安全控制的場景，如導航與推薦系統，能逐步累積經驗學得穩健策略。

第三部《強化學習》26/100 On-policy 與 Off-policy 比較 🧭 學自己的策略還是別人的？

On-policy 使用自身策略互動學習，穩健安全但效率較低；Off-policy 可用他人或歷史資料學習目標策略，效率高但可能不穩定。典型例子是 SARSA 與 Q-Learning，前者依實際行為更新，後者追求理想最優。兩者各有應用價值，實務常結合運用。

第三部《強化學習》25/100 採樣策略與重要性修正 🧮 現實與目標策略的權衡！

重要性修正是離策略學習的核心，透過加權方式將行為策略 μ 的樣本轉換為目標策略 π 的估值。普通方法雖無偏卻變異大，加權法則收斂更穩定。此技術能在僅有歷史資料或無法頻繁試驗的情境下，有效訓練與評估新策略。

我爸說他這輩子最後悔的，就是沒有貸款買第二間房-投資進行式EP08

付費限定

‹思›語室

2025/08/27

如果你現在正在猶豫要不要買房，這篇文章不是要說服你買。

#文章 #對話 #力量

全球財經專業評論的沙龍

2025/07/24

劉夷生醫師授課跨領域整合，ABVC集團開啟全球癌症治療新世代

臺灣生技產業具有發展「護臺神山」的潛力，癌症用藥市場商機龐大。本文介紹劉夷生醫師及其投入的ABVC集團，該集團整合醫藥、長照服務與科技數據，打造全臺首創的癌症康養服務體系，並將於納斯達克上市。

#ABVC #AiBtl #OncoX