第三部《強化學習》19/100 動態規劃與表格方法的限制 🚧 適用於小空間，需轉型！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/23 更新2025/09/23 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

19/100 第二週：📌 策略與動態規劃

19.動態規劃與表格方法的限制 🚧 適用於小空間，需轉型！

________________________________________

🎯 單元導讀：

在前幾單元，我們學會了如何透過動態規劃（Dynamic Programming, DP）和表格方式（Tabular Methods）解決強化學習中的 MDP 問題。但現實世界的任務複雜得多，狀態空間巨大、動作多樣、環境不確定，這些都暴露了傳統表格法與 DP 的嚴重限制。

本單元將說明：

• 表格法與動態規劃為何無法應對大規模問題

• 現代強化學習如何「轉型升級」：從表格法進入近似方法與深度強化學習（Deep RL）

________________________________________

📘 一、什麼是表格方法（Tabular Methods）？

表格方法是最早的強化學習技術，會將每個狀態 s（或狀態-動作對 (s, a)）的值儲存在一張表格中。舉例：

狀態 S 動作 A Q值 Q(S, A)

s₁ a₁ 2.5

s₁ a₂ 1.8

... ... ...

這些表格隨著學習過程不斷更新，直到收斂為止。

________________________________________

🚧 二、動態規劃與表格法的三大限制

動態規劃與表格法雖然理論完整，但在實務應用上有三大限制。

首先是維度爆炸，當狀態與行動空間增加時，V(s) 或 Q(s,a) 需要儲存的資料量會呈指數成長，導致記憶體無法承受。

其次，動態規劃假設必須完全知道環境模型，也就是轉移機率 P(s'|s,a) 和獎勵函數 R(s,a,s')，但現實中常常無法獲得完整的模型資訊。

最後是記憶體與時間成本高，每次更新都需要完整遍歷整個狀態空間，運算量龐大，難以應用在即時反應、快速決策的動態任務場景中。因此，這些限制也促使強化學習等近似方法成為現實環境中更具彈性的選擇。

________________________________________

🔁 三、轉型：從表格法走向「函數逼近」

為了解決上述問題，我們引入函數逼近（Function Approximation）概念：

Q(s,a) ≈ Q^(s,a; θ)

不再儲存一張巨大的表格，而是利用參數化函數（如神經網路、線性模型）來學習 Q 值。

方法特點

線性逼近 Q 值用特徵加權和表示

深度神經網路（DQN）利用 CNN/RNN 擷取狀態特徵，自動學習策略

不再儲存一張巨大的表格，而是利用參數化函數（如神經網路、線性模型）來學習 Q 值。

________________________________________

🌐 四、深度強化學習：突破表格法的救星

深度強化學習（Deep RL）結合了深度學習與強化學習：

• 用深度神經網路近似 Q 函數

• 可處理圖片、語音、文字等高維輸入

• 能在複雜遊戲（如 Atari、Go、機器手臂）中達成超人類表現

📌 經典例子：DeepMind 的 DQN 在多款 Atari 遊戲中擊敗人類玩家！

________________________________________

🧠 五、類比理解：表格法 vs 函數逼近法

表格方法與函數逼近在強化學習中有本質上的差異。表格方法為每個狀態與動作單獨儲存數值，適用於小型離散空間，難以擴展到高維或連續的環境。相對地，函數逼近透過一組參數（例如神經網路權重）學習所有狀態-行動價值，具備良好的擴展性與彈性，能處理高維輸入及連續狀態與動作空間。表格法多用於教學與理論模擬，而現代真實 AI 應用大多依賴函數逼近，特別是在複雜環境中的深度強化學習技術。

________________________________________

🧩 六、思考挑戰與任務

1️⃣ 如果你設計的環境有 10⁶ 個狀態與 100 個動作，是否還能用表格？

在這樣的情境下，狀態-行動組合總數會高達 10⁸（1 億個 Q 值），表格法幾乎不可能儲存與更新完整資料，不僅記憶體需求爆炸，運算更新也極為耗時。因此，傳統表格方法在大型狀態空間中基本無法實用，需要更具擴展性的函數逼近技術取代。

2️⃣ 試著想像一個無法建模的環境（如股票市場），你會如何學習最優決策？

股票市場的狀態轉移與報酬極度隨機且無法精確建模，無法使用傳統動態規劃方法。在這種環境下，可以透過強化學習的「試探－回饋－學習」機制，直接從實際市場資料中學習經驗（off-policy learning），例如使用 Q-learning 或策略梯度方法，在不依賴完整模型的前提下，不斷從交易結果中調整決策策略。

3️⃣ Q-learning 能否與函數逼近結合？請舉出實例說明（提示：DQN）

可以。DQN（Deep Q-Network）正是將 Q-learning 與深度神經網路結合的典型範例。傳統 Q-learning 需要儲存完整的 Q 表，而 DQN 用深度神經網路參數化 Q 函數：

Q(s,a) ≈ Q^(s,a; θ)

透過神經網路自動提取高維狀態特徵（例如畫面像素、歷史數據等），實現了在大型、連續或高維環境下的強化學習應用，如 Atari 遊戲、AlphaGo、甚至自動駕駛系統。

________________________________________

✅ 七、小結與啟示

• 表格法與動態規劃雖簡單，僅適用於小型、完全可知的環境

• 現實世界需轉向：函數逼近 + 經驗學習 = 更強大的 RL 系統

• 深度強化學習（如 DQN）是對抗高維狀態空間的有效解法

• 下一步，我們將邁向 DQN、策略梯度與 Actor-Critic 的世界！

#學習

#模型