第三部《強化學習》17/100 折扣因子與時間差學習 ⏳ 現在獎勵重要?還是未來?

更新 發佈閱讀 5 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

17/100 第二週:📌 策略與動態規劃

17.折扣因子與時間差學習 ⏳ 現在獎勵重要?還是未來?

________________________________________

🎯 單元導讀:

當我們做決策時,總會面臨一個選擇:

⚖️「是現在馬上獲得一點小好處,還是等待更長久的未來大回報?」

在強化學習中,這種權衡被數學化為:

折扣因子 γ(gamma)

時間差學習 TD(Temporal Difference)

本篇將深入解釋,這兩個元素如何讓 AI 建立更符合現實的決策模型!

________________________________________

📌 一、什麼是「折扣因子 γ」?

折扣因子 γ ∈ [0,1] 是用來衡量未來獎勵的重要程度。

γ 越小(接近 0):代表更重視 眼前利益

γ 越大(接近 1):代表願意 等待長期回報

🎲 回報總和的計算公式:

G_t = R_{t+1} + γ * R_{t+2} + γ^2 * R_{t+3} + γ^3 * R_{t+4} + ...

或者也可以寫成總和符號形式:

G_t = Σ_{k=0}^∞ γ^k * R_{t+1+k}

👉 通俗地說:

如果你是「只想馬上賺到錢」的人,你的 γ 很低。

如果你是「願意投資長遠回報」的策略家,你的 γ 很高!

________________________________________

🧠 二、什麼是「時間差學習 TD」?

時間差學習(Temporal Difference, TD)是一種融合動態規劃與蒙地卡羅方法的學習方法,它不需要等到整個回合結束才能更新,而是每走一步就即時修正估計值。

最經典的 TD 更新公式如下:

V(s) <- V(s) + α * [ R_{t+1} + γ * V(s') - V(s) ]

其中:

V(s) :目前對狀態 s 的價值估計

R_{t+1} + γ * V(s') :新的目標估計值

α :學習率(控制更新幅度)

這個中括號內的差值稱為 TD 誤差,公式為:

δ_t = R_{t+1} + γ * V(s') - V(s)

👉 簡單一句話總結:

TD 學習是一邊互動、一邊修正的即時學習方式,不用等完整回合,學習速度快,收斂效果穩定。

________________________________________

🔄 三、為何時間差學習重要?

✅ 即時更新 每經過一個狀態就可更新價值,不用等到結束

✅ 效率高 尤其在長期任務中,不需記錄整個序列

✅ 可與 Q-learning 搭配 Q-learning 正是基於 TD 誤差更新 Q 值

________________________________________

🧮 四、TD 與 γ 如何改變學習行為?

γ 行為特徵

0.0 完全只看眼前的 R,類似貪吃蛇只衝眼前食物

0.5 願意考慮一些未來的路,但仍有短視傾向

0.99 幾乎看重整個未來的長期報酬(如戰略遊戲)

而 TD 則讓 AI 每一次行動後立刻根據回饋更新自己對未來的判斷,而不是等遊戲結束才學習。

________________________________________

📦 五、應用案例:AI 玩蛇遊戲 🐍

若 γ = 0,AI 只想吃眼前的果實,常陷入死路。

若 γ = 0.9 且用 TD 更新,AI 開始「學會」繞過障礙、甚至規劃長遠路徑去吃更多。

________________________________________

🔍 六、核心比較整理:

項目 折扣因子 γ 時間差學習 TD

控制未來回報比重 ✅ 是 ❌ 否

是一種學習演算法 ❌ 否 ✅ 是

可以即時更新價值 ❌ 否 ✅ 是

是否與 Q-learning 有關 ✅(間接) ✅(核心)

________________________________________

✅ 七、小結:

折扣因子 γ 決定 AI 有多「遠見」

時間差學習 TD 是一種即時、連續調整預測值的方法

結合兩者,讓 AI 既考慮長期策略,又能快速學習環境變化



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
本單元介紹**動態規劃(DP)**在強化學習中的角色,適用於已知環境模型(P、R 明確)的情境。透過策略評估、改善、策略疊代與價值疊代,可有效推導最優策略。DP 運算效率高,適合小型模擬與理論分析,但現實多數情境模型未知,需依靠強化學習試錯學習來補足限制。
2025/09/23
本單元介紹**動態規劃(DP)**在強化學習中的角色,適用於已知環境模型(P、R 明確)的情境。透過策略評估、改善、策略疊代與價值疊代,可有效推導最優策略。DP 運算效率高,適合小型模擬與理論分析,但現實多數情境模型未知,需依靠強化學習試錯學習來補足限制。
2025/09/23
價值疊代透過貝爾曼最優方程直接更新 V(s),每次取能帶來最高期望回報的行動,不需完整策略評估即可逐步逼近最優策略 π*。相比策略疊代,它運算更快,適合離線規劃、遊戲 AI 與小型狀態空間決策問題。
2025/09/23
價值疊代透過貝爾曼最優方程直接更新 V(s),每次取能帶來最高期望回報的行動,不需完整策略評估即可逐步逼近最優策略 π*。相比策略疊代,它運算更快,適合離線規劃、遊戲 AI 與小型狀態空間決策問題。
2025/09/23
策略疊代結合策略評估與策略改善,透過不斷循環更新,最終收斂為最優策略 π*。它具有單調提升與收斂保證,適用於迷宮導航、自駕車與遊戲對弈等場景,也是 AlphaZero 等演算法的重要基礎,人生決策亦可類比此過程。
2025/09/23
策略疊代結合策略評估與策略改善,透過不斷循環更新,最終收斂為最優策略 π*。它具有單調提升與收斂保證,適用於迷宮導航、自駕車與遊戲對弈等場景,也是 AlphaZero 等演算法的重要基礎,人生決策亦可類比此過程。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
AI高速發展,現今一天的變幻超過古代十年的發展,不少人對未來充滿焦慮、迷茫,但一直以來都有一項能力,不僅人人都能學、還無法被AI取代﹔而貫穿古今,只要精通這能力,人生普遍差不了…
Thumbnail
AI高速發展,現今一天的變幻超過古代十年的發展,不少人對未來充滿焦慮、迷茫,但一直以來都有一項能力,不僅人人都能學、還無法被AI取代﹔而貫穿古今,只要精通這能力,人生普遍差不了…
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
Thumbnail
生成式AI的進展大幅地影響著整個世界。企業從使用AI工具中看到了三個主要方面的收益包括提高銷售生產力、增加客戶滿意度和降低行銷開銷成本。這篇文章探討了AI在行銷中的應用和投資回報,並指出了使用時間、公司的數字化轉型階段和實驗對於AI工具的使用和效果有著重要影響。
Thumbnail
生成式AI的進展大幅地影響著整個世界。企業從使用AI工具中看到了三個主要方面的收益包括提高銷售生產力、增加客戶滿意度和降低行銷開銷成本。這篇文章探討了AI在行銷中的應用和投資回報,並指出了使用時間、公司的數字化轉型階段和實驗對於AI工具的使用和效果有著重要影響。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News