第三部《強化學習》19/100 動態規劃與表格方法的限制 🚧 適用於小空間,需轉型!

更新 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

19/100 第二週:📌 策略與動態規劃

19.動態規劃與表格方法的限制 🚧 適用於小空間,需轉型!

________________________________________

🎯 單元導讀:

在前幾單元,我們學會了如何透過動態規劃(Dynamic Programming, DP)和表格方式(Tabular Methods)解決強化學習中的 MDP 問題。但現實世界的任務複雜得多,狀態空間巨大、動作多樣、環境不確定,這些都暴露了傳統表格法與 DP 的嚴重限制。

本單元將說明:

表格法與動態規劃為何無法應對大規模問題

現代強化學習如何「轉型升級」:從表格法進入近似方法與深度強化學習(Deep RL)

________________________________________

📘 一、什麼是表格方法(Tabular Methods)?

表格方法是最早的強化學習技術,會將每個狀態 s(或狀態-動作對 (s, a))的值儲存在一張表格中。舉例:

狀態 S 動作 A Q值 Q(S, A)

s₁ a₁ 2.5

s₁ a₂ 1.8

... ... ...

這些表格隨著學習過程不斷更新,直到收斂為止。

________________________________________

🚧 二、動態規劃與表格法的三大限制

動態規劃與表格法雖然理論完整,但在實務應用上有三大限制。

首先是維度爆炸,當狀態與行動空間增加時,V(s) 或 Q(s,a) 需要儲存的資料量會呈指數成長,導致記憶體無法承受。

其次,動態規劃假設必須完全知道環境模型,也就是轉移機率 P(s'|s,a) 和獎勵函數 R(s,a,s'),但現實中常常無法獲得完整的模型資訊。

最後是記憶體與時間成本高,每次更新都需要完整遍歷整個狀態空間,運算量龐大,難以應用在即時反應、快速決策的動態任務場景中。因此,這些限制也促使強化學習等近似方法成為現實環境中更具彈性的選擇。

________________________________________

🔁 三、轉型:從表格法走向「函數逼近」

為了解決上述問題,我們引入 函數逼近(Function Approximation) 概念:

Q(s,a) ≈ Q^(s,a; θ)

不再儲存一張巨大的表格,而是利用參數化函數(如神經網路、線性模型)來學習 Q 值。

方法 特點

線性逼近 Q 值用特徵加權和表示

深度神經網路(DQN) 利用 CNN/RNN 擷取狀態特徵,自動學習策略

不再儲存一張巨大的表格,而是利用參數化函數(如神經網路、線性模型)來學習 Q 值。

________________________________________

🌐 四、深度強化學習:突破表格法的救星

深度強化學習(Deep RL)結合了深度學習與強化學習:

用深度神經網路近似 Q 函數

可處理圖片、語音、文字等高維輸入

能在複雜遊戲(如 Atari、Go、機器手臂)中達成超人類表現

📌 經典例子:DeepMind 的 DQN 在多款 Atari 遊戲中擊敗人類玩家!

________________________________________

🧠 五、類比理解:表格法 vs 函數逼近法

表格方法與函數逼近在強化學習中有本質上的差異。表格方法為每個狀態與動作單獨儲存數值,適用於小型離散空間,難以擴展到高維或連續的環境。相對地,函數逼近透過一組參數(例如神經網路權重)學習所有狀態-行動價值,具備良好的擴展性與彈性,能處理高維輸入及連續狀態與動作空間。表格法多用於教學與理論模擬,而現代真實 AI 應用大多依賴函數逼近,特別是在複雜環境中的深度強化學習技術。

________________________________________

🧩 六、思考挑戰與任務

1️⃣ 如果你設計的環境有 10⁶ 個狀態與 100 個動作,是否還能用表格?

在這樣的情境下,狀態-行動組合總數會高達 10⁸(1 億個 Q 值),表格法幾乎不可能儲存與更新完整資料,不僅記憶體需求爆炸,運算更新也極為耗時。因此,傳統表格方法在大型狀態空間中基本無法實用,需要更具擴展性的函數逼近技術取代。

2️⃣ 試著想像一個無法建模的環境(如股票市場),你會如何學習最優決策?

股票市場的狀態轉移與報酬極度隨機且無法精確建模,無法使用傳統動態規劃方法。在這種環境下,可以透過強化學習的「試探-回饋-學習」機制,直接從實際市場資料中學習經驗(off-policy learning),例如使用 Q-learning 或策略梯度方法,在不依賴完整模型的前提下,不斷從交易結果中調整決策策略。

3️⃣ Q-learning 能否與函數逼近結合?請舉出實例說明(提示:DQN)

可以。DQN(Deep Q-Network)正是將 Q-learning 與深度神經網路結合的典型範例。傳統 Q-learning 需要儲存完整的 Q 表,而 DQN 用深度神經網路參數化 Q 函數:

Q(s,a) ≈ Q^(s,a; θ)

透過神經網路自動提取高維狀態特徵(例如畫面像素、歷史數據等),實現了在大型、連續或高維環境下的強化學習應用,如 Atari 遊戲、AlphaGo、甚至自動駕駛系統。

________________________________________

✅ 七、小結與啟示

• 表格法與動態規劃雖簡單,僅適用於小型、完全可知的環境

• 現實世界需轉向:函數逼近 + 經驗學習 = 更強大的 RL 系統

• 深度強化學習(如 DQN)是對抗高維狀態空間的有效解法

• 下一步,我們將邁向 DQN、策略梯度與 Actor-Critic 的世界!


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
10會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
本單元介紹貝爾曼方程與策略提升定理。貝爾曼方程提供遞迴計算價值的方法,策略提升定理則保證改進後策略不會變差。透過策略疊代(評估 + 改進反覆進行),AI 可逐步收斂到最優策略,體現強化學習持續進化的核心原理。
2025/09/23
本單元介紹貝爾曼方程與策略提升定理。貝爾曼方程提供遞迴計算價值的方法,策略提升定理則保證改進後策略不會變差。透過策略疊代(評估 + 改進反覆進行),AI 可逐步收斂到最優策略,體現強化學習持續進化的核心原理。
2025/09/23
本單元介紹折扣因子 γ 與時間差學習 TD。γ 決定 AI 對未來回報的重視程度:小γ重視當下,大γ追求長期。TD 則透過即時更新價值,無需等待完整回合,學習效率高且穩定。兩者結合能讓 AI 同時具備長遠規劃與快速適應能力。
2025/09/23
本單元介紹折扣因子 γ 與時間差學習 TD。γ 決定 AI 對未來回報的重視程度:小γ重視當下,大γ追求長期。TD 則透過即時更新價值,無需等待完整回合,學習效率高且穩定。兩者結合能讓 AI 同時具備長遠規劃與快速適應能力。
2025/09/23
本單元介紹**動態規劃(DP)**在強化學習中的角色,適用於已知環境模型(P、R 明確)的情境。透過策略評估、改善、策略疊代與價值疊代,可有效推導最優策略。DP 運算效率高,適合小型模擬與理論分析,但現實多數情境模型未知,需依靠強化學習試錯學習來補足限制。
2025/09/23
本單元介紹**動態規劃(DP)**在強化學習中的角色,適用於已知環境模型(P、R 明確)的情境。透過策略評估、改善、策略疊代與價值疊代,可有效推導最優策略。DP 運算效率高,適合小型模擬與理論分析,但現實多數情境模型未知,需依靠強化學習試錯學習來補足限制。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News