AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
17/100 第二週:📌 策略與動態規劃
17.折扣因子與時間差學習 ⏳ 現在獎勵重要?還是未來?
________________________________________
🎯 單元導讀:
當我們做決策時,總會面臨一個選擇:
⚖️「是現在馬上獲得一點小好處,還是等待更長久的未來大回報?」
在強化學習中,這種權衡被數學化為:
• 折扣因子 γ(gamma)
• 時間差學習 TD(Temporal Difference)
本篇將深入解釋,這兩個元素如何讓 AI 建立更符合現實的決策模型!
________________________________________
📌 一、什麼是「折扣因子 γ」?
折扣因子 γ ∈ [0,1] 是用來衡量未來獎勵的重要程度。
• γ 越小(接近 0):代表更重視 眼前利益
• γ 越大(接近 1):代表願意 等待長期回報
🎲 回報總和的計算公式:
G_t = R_{t+1} + γ * R_{t+2} + γ^2 * R_{t+3} + γ^3 * R_{t+4} + ...
或者也可以寫成總和符號形式:
G_t = Σ_{k=0}^∞ γ^k * R_{t+1+k}
👉 通俗地說:
• 如果你是「只想馬上賺到錢」的人,你的 γ 很低。
• 如果你是「願意投資長遠回報」的策略家,你的 γ 很高!
________________________________________
🧠 二、什麼是「時間差學習 TD」?
時間差學習(Temporal Difference, TD)是一種融合動態規劃與蒙地卡羅方法的學習方法,它不需要等到整個回合結束才能更新,而是每走一步就即時修正估計值。
最經典的 TD 更新公式如下:
V(s) <- V(s) + α * [ R_{t+1} + γ * V(s') - V(s) ]
其中:
V(s) :目前對狀態 s 的價值估計
R_{t+1} + γ * V(s') :新的目標估計值
α :學習率(控制更新幅度)
這個中括號內的差值稱為 TD 誤差,公式為:
δ_t = R_{t+1} + γ * V(s') - V(s)
👉 簡單一句話總結:
TD 學習是一邊互動、一邊修正的即時學習方式,不用等完整回合,學習速度快,收斂效果穩定。
________________________________________
🔄 三、為何時間差學習重要?
✅ 即時更新 每經過一個狀態就可更新價值,不用等到結束
✅ 效率高 尤其在長期任務中,不需記錄整個序列
✅ 可與 Q-learning 搭配 Q-learning 正是基於 TD 誤差更新 Q 值
________________________________________
🧮 四、TD 與 γ 如何改變學習行為?
γ 行為特徵
0.0 完全只看眼前的 R,類似貪吃蛇只衝眼前食物
0.5 願意考慮一些未來的路,但仍有短視傾向
0.99 幾乎看重整個未來的長期報酬(如戰略遊戲)
而 TD 則讓 AI 每一次行動後立刻根據回饋更新自己對未來的判斷,而不是等遊戲結束才學習。
________________________________________
📦 五、應用案例:AI 玩蛇遊戲 🐍
• 若 γ = 0,AI 只想吃眼前的果實,常陷入死路。
• 若 γ = 0.9 且用 TD 更新,AI 開始「學會」繞過障礙、甚至規劃長遠路徑去吃更多。
________________________________________
🔍 六、核心比較整理:
項目 折扣因子 γ 時間差學習 TD
控制未來回報比重 ✅ 是 ❌ 否
是一種學習演算法 ❌ 否 ✅ 是
可以即時更新價值 ❌ 否 ✅ 是
是否與 Q-learning 有關 ✅(間接) ✅(核心)
________________________________________
✅ 七、小結:
• 折扣因子 γ 決定 AI 有多「遠見」
• 時間差學習 TD 是一種即時、連續調整預測值的方法
• 結合兩者,讓 AI 既考慮長期策略,又能快速學習環境變化