第三部《強化學習》31/100 時序差分學習 TD(0) ⏱ 綜合 MC 與動態規劃的橋梁!

更新 發佈閱讀 6 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

31/100 第四週:📌 時序差分學習 TD

31.時序差分學習 TD(0) ⏱ 綜合 MC 與動態規劃的橋梁!

________________________________________

🎯 單元導讀:

時序差分學習(Temporal Difference Learning, 簡稱 TD)是一種結合「蒙地卡羅方法」與「動態規劃」優點的強化學習技術,能在不需完整 episode 結束的情況下即時學習。TD(0) 是最基本的 TD 方法,僅根據「一步的預測誤差」更新狀態價值。

________________________________________

🧠 一、什麼是 TD(0) 學習?

TD(0) 是強化學習中的一種策略評估方法,其主要特徵是:

根據目前狀態的估計值與下一狀態估計值間的差距(誤差)來更新。

公式如下:

V(s) = V(s) + alpha * (reward + gamma * V(next_state) - V(s))

其中:

V(s):當前狀態的價值估計

α:學習率

r:當前步驟獎勵

γ:折扣因子

s′:下一狀態

這個更新是即時的,不需等到 episode 結束。

________________________________________

🔄 二、與 MC 方法的比較

蒙地卡羅方法(MC)與時序差分學習(TD)在強化學習中的策略評估各有特點。蒙地卡羅方法需要完整的 episode 才能更新,每次更新使用實際觀察到的完整回報 G,適合有明確終止點的 episodic 任務,但由於回報變異性大,收斂速度通常較慢。時序差分學習 (TD) 則不需等整個 episode 結束,可以在每一步即時更新,利用當前即時回報 r 與下一狀態的估計值 γV(s') 來修正目前的 V(s),因此收斂速度通常更快,且適用於持續性或無終點的任務。整體而言,MC 方法偏重實際經驗,TD 方法則結合經驗與估計的即時學習。

________________________________________

🎮 三、TD(0) 的應用場景

應用領域 實例

自駕車 車輛每次感知路況即時調整行為

股票投資 根據短期價格變動即時修正資產配置策略

遊戲 AI 如 DQN 中的價值學習(結合深度學習)

________________________________________

🧩 四、TD(0) 的優點與挑戰

✅ 優點:

無需等待完整回合結束即可學習

能即時處理變動環境

計算效率較高,適合實時系統

⚠️ 挑戰:

估計誤差來源是預測,而非實際結果(可能導致偏差)

對學習率 α 與折扣因子 γ 敏感,需謹慎調整

________________________________________

📚 五、常見問題與反思任務:

1️⃣ 為何 TD 能比 MC 更快更新?有什麼代價?

TD 方法能即時更新,因為它在每個時間步 (step) 就根據當前的實際回報 r 與下一狀態的估計值 V(s') 進行修正,無需等到完整 episode 結束才更新。這讓它在長期、持續性任務中特別有效率,收斂速度也通常比 MC 快。

但代價是:TD 並非直接使用實際完整回報,而是依賴自己的「估計再修正估計」,因此學習過程中可能累積偏誤,尤其在初期 V(s) 估計還不準時,容易出現「自我增強的錯誤」。

2️⃣ 若 TD 的預測值錯誤,會不會越學越偏?該如何防止?

是的,有可能。 TD 方法存在「引導誤差」風險:如果早期估計不準,可能反覆使用錯誤預測值進行更新,導致系統性偏差累積。

防止方法包括:

設定較小的學習率 alpha,避免誤差放大太快。

增加探索,讓 agent 能夠多嘗試不同狀態,累積更多樣本來修正錯誤。

結合 Eligibility Traces (TD(λ)),讓近期經驗對更新有更大影響,能在某種程度平衡偏差與方差。

3️⃣ 若要將 TD 用於連續控制任務(如機器人學習),應注意哪些事項?

狀態表達:連續空間需使用函數逼近(如神經網路、線性逼近)來取代傳統表格式 V(s)。

穩定性問題:函數逼近下 TD 更新容易不穩定,需注意步長設定與收斂條件,可能需使用經驗重放(replay buffer)、目標網路等技巧穩定學習。

探索策略:連續控制通常需要設計適當的隨機策略(如加上高斯噪音)來促進探索。

獎勵設計:連續任務的 reward 應提供足夠的即時回饋,避免極端稀疏獎勵導致 TD 更新困難。

________________________________________

✅ 小結:

TD(0) 是強化學習的關鍵技術,能在不需模型的前提下即時學習。

它同時具備 MC 的無模型特性與 DP 的逐步更新能力。

是 DQN、Actor-Critic 等現代強化學習演算法的基石。



留言
avatar-img
艾韓思 AIHANS|AI 應用工程筆記
34會員
672內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
2025/09/24
蒙地卡羅方法透過完整 episode 的回報平均估計狀態或行動價值,不需環境模型,適合模擬與回合制任務。其優點是直觀與一致性保證,但收斂慢、變異高,難以即時學習。應用於 Blackjack 等範例,可逐步逼近最優策略。
2025/09/24
蒙地卡羅方法透過完整 episode 的回報平均估計狀態或行動價值,不需環境模型,適合模擬與回合制任務。其優點是直觀與一致性保證,但收斂慢、變異高,難以即時學習。應用於 Blackjack 等範例,可逐步逼近最優策略。
2025/09/24
本單元以 Blackjack 遊戲示範蒙地卡羅控制實作,透過完整回合試錯與 ε-Greedy 策略更新 Q 值,AI 學會在不同手牌與莊家情境下選擇要牌或停牌。隨訓練累積,策略逐步收斂接近最優解,展現強化學習自動形成「算牌」式決策的能力。
2025/09/24
本單元以 Blackjack 遊戲示範蒙地卡羅控制實作,透過完整回合試錯與 ε-Greedy 策略更新 Q 值,AI 學會在不同手牌與莊家情境下選擇要牌或停牌。隨訓練累積,策略逐步收斂接近最優解,展現強化學習自動形成「算牌」式決策的能力。
2025/09/24
Epsilon-Greedy 策略透過以 1−ε 機率選最佳行動、ε 機率隨機探索,平衡利用與探索,避免陷入次優解。固定 ε 簡單但收斂慢,動態衰減更實用。此方法廣泛應用於 Q-learning、MC 控制與 SARSA,是強化學習中最基礎且實用的探索機制。
2025/09/24
Epsilon-Greedy 策略透過以 1−ε 機率選最佳行動、ε 機率隨機探索,平衡利用與探索,避免陷入次優解。固定 ε 簡單但收斂慢,動態衰減更實用。此方法廣泛應用於 Q-learning、MC 控制與 SARSA,是強化學習中最基礎且實用的探索機制。
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
創業者常因資金困境而無法抓住機會,利用房產活化讓二胎房貸成為財務策略的有力夥伴。 諮詢國峯厝好貸的二胎房貸服務,讓你的房子成為你最強力的天使投資人,推動事業成長。
Thumbnail
創業者常因資金困境而無法抓住機會,利用房產活化讓二胎房貸成為財務策略的有力夥伴。 諮詢國峯厝好貸的二胎房貸服務,讓你的房子成為你最強力的天使投資人,推動事業成長。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News