AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
32/100 第四週:📌 時序差分學習 TD
32.TD 預測學習 📈 邊學邊估,實戰訓練最佳選擇!
________________________________________
🎯 單元導讀: TD 預測學習是強化學習中最基礎、最實用的學習技術之一,特別適合動態、連續性環境下的即時學習。 TD 最大特色:在每步操作後,馬上使用已知的觀察和預測值進行更新,分潤「預期」與「實際」之間的落差。
________________________________________
🔍 一、什麼是 TD 預測學習? TD 使用的資訊:
「當前預測值 V(s_t) 」 「即時獲得獎勵 r_{t+1}」 「下一個狀態預測值 V(s_{t+1})」
TD 監測「預期」與「實際」的落差,稱為 TD 誤差 (δ̶t):
delta_t = r + gamma * V(s') - V(s)
當 delta_t 等於 0 時,表示預測與實際符合,無需修正;反之,如果有落差,則用下面公式進行更新。
________________________________________
🔧 二、學習更新公式 (TD(0))
學習步驟:
V(s) <- V(s) + alpha * (r + gamma * V(s') - V(s))
其中:
• alpha: 學習率,控制更新幅度
• gamma: 折扣因子,考慮未來獎勵影響
• delta_t: TD 誤差,為更新根據
________________________________________
📦 三、 TD 預測 vs. MC 預測 對照
TD 預測與 MC 預測在學習方式上有明顯差異。TD 預測在每個時間步即可即時更新,利用當前即時獲得的獎勵與下一狀態的預測值來修正當前估計,更新速度快、變異性較小,但可能存在偏差。MC 預測則必須等整個 episode 完成後才能計算完整回報 G 再更新,雖然更新較為準確,但因單次回報變異性較大,收斂速度通常較慢,需要大量樣本平滑化估計結果。兩者各有優缺,實務上常會依任務性質選擇或結合使用。
________________________________________
🧠 四、 TD 誤差的直覺示意
假設:
• V(s) = 5 (當前預測)
• r = 3 (即時獲得)
• V(s') = 4 (下一狀態預測)
如果 gamma = 1,則: delta_t = 3 + 1 * 4 - 5 = 2
🔹 表示前一步預測低低,應該上調!
________________________________________
🕹 五、實例:預測發展地方功能
元件 例子說明
狀態 s AI 分析現在用戶的學習階段
行動 a 推薦一個最適符的練習題目
回報 r 用戶做題結果或檔分
新狀態 s' 進入下一階段學習狀態
TD 誤差 當反應高於預期,AI 加強推薦簡類題目
_____________________________________
🧰 六、思考挑戰與任務
1️⃣ 你是否曾經在生活中看錯或估錯任何事情的價值?
當你預期某件事的回報很高,但結果卻沒有達到預期,或反之超出想像,那其實就是你個人的 TD 誤差。例如:你以為某份工作很有前景,實際上卻讓你壓力很大;你以為某次投資會虧損,結果卻獲利豐厚,這些都是實際經驗與預測間的落差。
2️⃣ 如果你是教練,可以如何利用 TD 誤差調整學生的學習?
每次學生在練習後的表現,其實就是一次回饋訊號。當學生表現優於預期時(正向 TD 誤差),可以加大挑戰,提供更高難度的練習;當表現落後預期時(負向 TD 誤差),應適時補強基礎,加強練習薄弱項目。即時觀察誤差並靈活調整教學策略,正是有效學習的關鍵。
3️⃣ 在你的人生計畫中,你的「預估」與「實際」落差有多大?能否及時修正?
人生計劃往往充滿不確定性。理想職涯、收入預期、家庭安排… 很多預估在實際執行後才發現偏差。如果能像 TD 學習一樣,保持即時回顧與修正,在每個階段都調整目標與策略,就能持續向更符合現實的理想狀態前進。
_____________________________________
💪 七、小結與啟示
• TD 誤差是 TD 學習模型的核心驅動力
• 它使 AI 可以即時修正自己預測與實際的落差
• 特別適合動態、持續性的實際應用場景
• 想要讓 AI 進化,就是要讓它時時知錯能改!