AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
31/100 第四週:📌 時序差分學習 TD
31.時序差分學習 TD(0) ⏱ 綜合 MC 與動態規劃的橋梁!
________________________________________
🎯 單元導讀:
時序差分學習(Temporal Difference Learning, 簡稱 TD)是一種結合「蒙地卡羅方法」與「動態規劃」優點的強化學習技術,能在不需完整 episode 結束的情況下即時學習。TD(0) 是最基本的 TD 方法,僅根據「一步的預測誤差」更新狀態價值。
________________________________________
🧠 一、什麼是 TD(0) 學習?
TD(0) 是強化學習中的一種策略評估方法,其主要特徵是:
根據目前狀態的估計值與下一狀態估計值間的差距(誤差)來更新。
公式如下:
V(s) = V(s) + alpha * (reward + gamma * V(next_state) - V(s))
其中:
• V(s):當前狀態的價值估計
• α:學習率
• r:當前步驟獎勵
• γ:折扣因子
• s′:下一狀態
這個更新是即時的,不需等到 episode 結束。
________________________________________
🔄 二、與 MC 方法的比較
蒙地卡羅方法(MC)與時序差分學習(TD)在強化學習中的策略評估各有特點。蒙地卡羅方法需要完整的 episode 才能更新,每次更新使用實際觀察到的完整回報 G,適合有明確終止點的 episodic 任務,但由於回報變異性大,收斂速度通常較慢。時序差分學習 (TD) 則不需等整個 episode 結束,可以在每一步即時更新,利用當前即時回報 r 與下一狀態的估計值 γV(s') 來修正目前的 V(s),因此收斂速度通常更快,且適用於持續性或無終點的任務。整體而言,MC 方法偏重實際經驗,TD 方法則結合經驗與估計的即時學習。
________________________________________
🎮 三、TD(0) 的應用場景
應用領域 實例
自駕車 車輛每次感知路況即時調整行為
股票投資 根據短期價格變動即時修正資產配置策略
遊戲 AI 如 DQN 中的價值學習(結合深度學習)
________________________________________
🧩 四、TD(0) 的優點與挑戰
✅ 優點:
• 無需等待完整回合結束即可學習
• 能即時處理變動環境
• 計算效率較高,適合實時系統
⚠️ 挑戰:
• 估計誤差來源是預測,而非實際結果(可能導致偏差)
• 對學習率 α 與折扣因子 γ 敏感,需謹慎調整
________________________________________
📚 五、常見問題與反思任務:
1️⃣ 為何 TD 能比 MC 更快更新?有什麼代價?
TD 方法能即時更新,因為它在每個時間步 (step) 就根據當前的實際回報 r 與下一狀態的估計值 V(s') 進行修正,無需等到完整 episode 結束才更新。這讓它在長期、持續性任務中特別有效率,收斂速度也通常比 MC 快。
但代價是:TD 並非直接使用實際完整回報,而是依賴自己的「估計再修正估計」,因此學習過程中可能累積偏誤,尤其在初期 V(s) 估計還不準時,容易出現「自我增強的錯誤」。
2️⃣ 若 TD 的預測值錯誤,會不會越學越偏?該如何防止?
是的,有可能。 TD 方法存在「引導誤差」風險:如果早期估計不準,可能反覆使用錯誤預測值進行更新,導致系統性偏差累積。
防止方法包括:
設定較小的學習率 alpha,避免誤差放大太快。
增加探索,讓 agent 能夠多嘗試不同狀態,累積更多樣本來修正錯誤。
結合 Eligibility Traces (TD(λ)),讓近期經驗對更新有更大影響,能在某種程度平衡偏差與方差。
3️⃣ 若要將 TD 用於連續控制任務(如機器人學習),應注意哪些事項?
狀態表達:連續空間需使用函數逼近(如神經網路、線性逼近)來取代傳統表格式 V(s)。
穩定性問題:函數逼近下 TD 更新容易不穩定,需注意步長設定與收斂條件,可能需使用經驗重放(replay buffer)、目標網路等技巧穩定學習。
探索策略:連續控制通常需要設計適當的隨機策略(如加上高斯噪音)來促進探索。
獎勵設計:連續任務的 reward 應提供足夠的即時回饋,避免極端稀疏獎勵導致 TD 更新困難。
________________________________________
✅ 小結:
• TD(0) 是強化學習的關鍵技術,能在不需模型的前提下即時學習。
• 它同時具備 MC 的無模型特性與 DP 的逐步更新能力。
• 是 DQN、Actor-Critic 等現代強化學習演算法的基石。