第三部《強化學習》31/100 時序差分學習 TD(0) ⏱ 綜合 MC 與動態規劃的橋梁!

更新 發佈閱讀 6 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

31/100 第四週:📌 時序差分學習 TD

31.時序差分學習 TD(0) ⏱ 綜合 MC 與動態規劃的橋梁!

________________________________________

🎯 單元導讀:

時序差分學習(Temporal Difference Learning, 簡稱 TD)是一種結合「蒙地卡羅方法」與「動態規劃」優點的強化學習技術,能在不需完整 episode 結束的情況下即時學習。TD(0) 是最基本的 TD 方法,僅根據「一步的預測誤差」更新狀態價值。

________________________________________

🧠 一、什麼是 TD(0) 學習?

TD(0) 是強化學習中的一種策略評估方法,其主要特徵是:

根據目前狀態的估計值與下一狀態估計值間的差距(誤差)來更新。

公式如下:

V(s) = V(s) + alpha * (reward + gamma * V(next_state) - V(s))

其中:

V(s):當前狀態的價值估計

α:學習率

r:當前步驟獎勵

γ:折扣因子

s′:下一狀態

這個更新是即時的,不需等到 episode 結束。

________________________________________

🔄 二、與 MC 方法的比較

蒙地卡羅方法(MC)與時序差分學習(TD)在強化學習中的策略評估各有特點。蒙地卡羅方法需要完整的 episode 才能更新,每次更新使用實際觀察到的完整回報 G,適合有明確終止點的 episodic 任務,但由於回報變異性大,收斂速度通常較慢。時序差分學習 (TD) 則不需等整個 episode 結束,可以在每一步即時更新,利用當前即時回報 r 與下一狀態的估計值 γV(s') 來修正目前的 V(s),因此收斂速度通常更快,且適用於持續性或無終點的任務。整體而言,MC 方法偏重實際經驗,TD 方法則結合經驗與估計的即時學習。

________________________________________

🎮 三、TD(0) 的應用場景

應用領域 實例

自駕車 車輛每次感知路況即時調整行為

股票投資 根據短期價格變動即時修正資產配置策略

遊戲 AI 如 DQN 中的價值學習(結合深度學習)

________________________________________

🧩 四、TD(0) 的優點與挑戰

✅ 優點:

無需等待完整回合結束即可學習

能即時處理變動環境

計算效率較高,適合實時系統

⚠️ 挑戰:

估計誤差來源是預測,而非實際結果(可能導致偏差)

對學習率 α 與折扣因子 γ 敏感,需謹慎調整

________________________________________

📚 五、常見問題與反思任務:

1️⃣ 為何 TD 能比 MC 更快更新?有什麼代價?

TD 方法能即時更新,因為它在每個時間步 (step) 就根據當前的實際回報 r 與下一狀態的估計值 V(s') 進行修正,無需等到完整 episode 結束才更新。這讓它在長期、持續性任務中特別有效率,收斂速度也通常比 MC 快。

但代價是:TD 並非直接使用實際完整回報,而是依賴自己的「估計再修正估計」,因此學習過程中可能累積偏誤,尤其在初期 V(s) 估計還不準時,容易出現「自我增強的錯誤」。

2️⃣ 若 TD 的預測值錯誤,會不會越學越偏?該如何防止?

是的,有可能。 TD 方法存在「引導誤差」風險:如果早期估計不準,可能反覆使用錯誤預測值進行更新,導致系統性偏差累積。

防止方法包括:

設定較小的學習率 alpha,避免誤差放大太快。

增加探索,讓 agent 能夠多嘗試不同狀態,累積更多樣本來修正錯誤。

結合 Eligibility Traces (TD(λ)),讓近期經驗對更新有更大影響,能在某種程度平衡偏差與方差。

3️⃣ 若要將 TD 用於連續控制任務(如機器人學習),應注意哪些事項?

狀態表達:連續空間需使用函數逼近(如神經網路、線性逼近)來取代傳統表格式 V(s)。

穩定性問題:函數逼近下 TD 更新容易不穩定,需注意步長設定與收斂條件,可能需使用經驗重放(replay buffer)、目標網路等技巧穩定學習。

探索策略:連續控制通常需要設計適當的隨機策略(如加上高斯噪音)來促進探索。

獎勵設計:連續任務的 reward 應提供足夠的即時回饋,避免極端稀疏獎勵導致 TD 更新困難。

________________________________________

✅ 小結:

TD(0) 是強化學習的關鍵技術,能在不需模型的前提下即時學習。

它同時具備 MC 的無模型特性與 DP 的逐步更新能力。

是 DQN、Actor-Critic 等現代強化學習演算法的基石。



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/24
蒙地卡羅方法透過完整 episode 的回報平均估計狀態或行動價值,不需環境模型,適合模擬與回合制任務。其優點是直觀與一致性保證,但收斂慢、變異高,難以即時學習。應用於 Blackjack 等範例,可逐步逼近最優策略。
2025/09/24
蒙地卡羅方法透過完整 episode 的回報平均估計狀態或行動價值,不需環境模型,適合模擬與回合制任務。其優點是直觀與一致性保證,但收斂慢、變異高,難以即時學習。應用於 Blackjack 等範例,可逐步逼近最優策略。
2025/09/24
本單元以 Blackjack 遊戲示範蒙地卡羅控制實作,透過完整回合試錯與 ε-Greedy 策略更新 Q 值,AI 學會在不同手牌與莊家情境下選擇要牌或停牌。隨訓練累積,策略逐步收斂接近最優解,展現強化學習自動形成「算牌」式決策的能力。
2025/09/24
本單元以 Blackjack 遊戲示範蒙地卡羅控制實作,透過完整回合試錯與 ε-Greedy 策略更新 Q 值,AI 學會在不同手牌與莊家情境下選擇要牌或停牌。隨訓練累積,策略逐步收斂接近最優解,展現強化學習自動形成「算牌」式決策的能力。
2025/09/24
Epsilon-Greedy 策略透過以 1−ε 機率選最佳行動、ε 機率隨機探索,平衡利用與探索,避免陷入次優解。固定 ε 簡單但收斂慢,動態衰減更實用。此方法廣泛應用於 Q-learning、MC 控制與 SARSA,是強化學習中最基礎且實用的探索機制。
2025/09/24
Epsilon-Greedy 策略透過以 1−ε 機率選最佳行動、ε 機率隨機探索,平衡利用與探索,避免陷入次優解。固定 ε 簡單但收斂慢,動態衰減更實用。此方法廣泛應用於 Q-learning、MC 控制與 SARSA,是強化學習中最基礎且實用的探索機制。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News