深度強化學習 (DRL) 的核心數理原理

Hank吳

2025/07/24 更新2025/07/22 發佈閱讀 9 分鐘

讓我們深入探討深度強化學習 (DRL) 模型的數理與原理，這會稍微燒腦一點，但保證讓你對 DRL 的核心運作有更透徹的理解。

還記得我們之前提到的，DRL 結合了「深度學習」和「強化學習」嗎？它的強大之處，就在於能讓機器透過不斷與環境互動、從「經驗」中學習，進而優化決策。這背後的數理支撐，主要來自以下幾個關鍵概念：

1. 強化學習 (Reinforcement Learning, RL) 的基礎：馬可夫決策過程 (Markov Decision Process, MDP) 🎲

DRL 的決策過程可以用馬可夫決策過程 (MDP) 來數學化描述。想像一個遊戲，你每走一步，遊戲的狀態就會改變，然後你可能得到獎勵或懲罰。

一個 MDP 包含以下五個核心元素：

* 狀態空間 (State Space, S)：所有可能出現的環境狀態集合。例如，在象棋遊戲中，棋盤上所有可能的棋子佈局。

* 動作空間 (Action Space, A)：在每個狀態下，智能體 (Agent) 可以執行的所有可能動作集合。例如，在象棋遊戲中，所有可能的合法走棋。

* 轉移機率 (Transition Probability, P(s' | s, a))：從狀態 s 執行動作 a 後，轉移到下一個狀態 s' 的機率。這描述了環境的動態。

* 獎勵函數 (Reward Function, R(s, a, s'))：從狀態 s 執行動作 a 並轉移到 s' 後，智能體獲得的即時獎勵。智能體的目標就是最大化這個獎勵的累積值。

* 折扣因子 (Discount Factor, \gamma \in [0, 1))：一個介於 0 和 1 之間的常數，用來衡量未來獎勵的重要性。\gamma 越接近 0，智能體越看重眼前利益；越接近 1，則越看重長期利益。

智能體的目標是學習一個策略 (Policy, \pi(a|s))，這個策略定義了在給定狀態 s 下，選擇動作 a 的機率。好的策略會讓智能體在長期內獲得最大的累積獎勵。

2. 價值函數 (Value Functions)：評估好壞的標準 📈

在 RL 中，我們需要一種方式來衡量一個狀態有多好，或者一個動作有多好。這就是價值函數的作用：

* 狀態價值函數 (State-Value Function)

：衡量在遵循策略 \pi 的情況下，從狀態 s 開始，預期能獲得的累積折扣獎勵。

這裡的 E_{\pi} 表示在策略 \pi 下的期望值。

* 動作價值函數 (Action-Value Function, Q^{\pi}(s, a))：衡量在狀態 s 執行動作 a 後，再遵循策略 \pi 的情況下，預期能獲得的累積折扣獎勵。

Q^{\pi}(s, a) = E_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \mid S_t = s, A_t = a \right]

我們通常會尋找最優策略 (\pi^*)，它能最大化所有的狀態價值或動作價值。最優策略對應的動作價值函數稱為最優 Q 函數 (Q^*(s, a))，它滿足著名的貝爾曼最優方程 (Bellman Optimality Equation)：

Q^*(s, a) = E_{s' \sim P} [R(s, a, s') + \gamma \max_{a'} Q^*(s', a')]

這個方程告訴我們，一個狀態-動作對的最佳 Q 值，等於即時獎勵加上折扣後的未來最佳 Q 值。

3. 深度學習 (Deep Learning) 的結合：應對複雜性

傳統 RL 方法在狀態和動作空間很小的時候表現不錯。但當遊戲畫面、高維度數據出現時，狀態空間變得巨大甚至無限，傳統方法就無能為力了。這時，深度學習就派上用場了。

* 深度 Q 網路 (Deep Q-Network, DQN)：是 DRL 的一個里程碑。它使用神經網路 (Neural Network) 來近似 (approximate) Q 函數，即 Q(s, a; \theta)，其中 \theta 是神經網路的權重參數。

* 輸入：通常是當前狀態 s (例如：遊戲畫面像素值)。

* 輸出：對應所有可能動作的 Q 值。

* 訓練：DQN 的訓練目標是讓預測的 Q 值盡可能接近目標 Q 值。目標 Q 值通常基於貝爾曼方程計算，但為了穩定訓練，會使用目標網路 (Target Network) 和經驗回放 (Experience Replay) 等技巧。

DQN 的損失函數 (Loss Function) 通常是預測 Q 值與目標 Q 值之間的均方誤差 (Mean Squared Error, MSE)：

L(\theta) = E_{(s, a, r, s') \sim D} \left[ \left( R + \gamma \max_{a'} Q(s', a'; \theta_{target}) - Q(s, a; \theta) \right)^2 \right]

其中 D 是經驗回放緩衝區，\theta_{target} 是目標網路的參數。

4. 從 DQN 到更先進的 DRL 演算法 🚀

DQN 開啟了 DRL 的黃金時代，但它也有其局限性（例如，只能處理離散動作空間）。為了解決這些問題，研究人員開發了更多元、更強大的 DRL 演算法：

* 策略梯度 (Policy Gradient) 方法：直接學習策略 \pi(a|s; \theta)，而不是 Q 值。它們優化目標是期望的累積獎勵，例如：REINFORCE。

* Actor-Critic (A2C/A3C) 演算法：結合了策略梯度和價值函數的方法。其中 "Actor" 負責學習策略 (行動)，"Critic" 負責學習價值函數 (評估行動好壞)。

* 信任區域策略優化 (Trust Region Policy Optimization, TRPO) 和近端策略優化 (Proximal Policy Optimization, PPO)：這些演算法在策略更新時加入了約束，確保每次更新不會改變策略太多，從而提高訓練穩定性。它們在複雜環境中表現出色。

* 軟性演員-評論家 (Soft Actor-Critic, SAC)：在獎勵中加入一個熵 (Entropy) 項，鼓勵探索，同時追求最大化獎勵。

DRL 的訓練流程簡述

總體來說，DRL 模型的訓練流程大致如下：

* 初始化：初始化神經網路參數和環境。

* 互動與採樣：智能體根據當前策略（或 Q 函數）在環境中採取動作，觀察環境的新狀態和獲得的獎勵。

* 經驗回放：將「狀態-動作-獎勵-新狀態」的轉變經驗儲存到一個緩衝區。

* 學習與更新：從經驗回放緩衝區中隨機抽取一批經驗數據，用這些數據來訓練神經網路，更新模型的參數。這一步是基於貝爾曼方程或策略梯度的優化。

* 重複：不斷重複步驟 2-4，直到模型收斂或達到預設的訓練次數。

結語

DRL 模型背後的數理原理，雖然看似複雜，但其核心思想都是為了讓機器能夠在不確定性中做出最優決策。從 MDP 的基礎框架，到價值函數的評估，再到深度神經網路的強大近似能力，這些要素共同構成了 DRL 的智能學習引擎。

如果你對 DRL 模型的哪個具體演算法或數學細節特別感興趣，歡迎提出來，我們可以再深入探討。

#DRL #深度強化學習 #數理原理 #機器學習 #人工智慧 #AI技術 #神經網路 #馬可夫決策過程 #Q學習 #PolicyGradient

留言

留言分享你的想法！

Hank吳的沙龍

1會員

86內容數

這不僅僅是一個 Blog，更是一個交流與分享的空間。期待在這裡與你相遇，一起探索科技、體驗生活、夢想旅行！💖

Hank吳的沙龍的其他內容

2025/07/22

什麼是 DRL 深度強化學習 (Deep Reinforcement Learning)？

DRL，也就是深度強化學習 (Deep Reinforcement Learning)，是近年來人工智慧領域最火熱的技術之一。🔥 它結合了深度學習的強大感知能力和強化學習的決策學習能力，讓機器可以像人類一樣，透過不斷的「嘗試錯誤」來學習、進而做出最棒的決策。

2025/07/22

什麼是 DRL 深度強化學習 (Deep Reinforcement Learning)？

2025/07/21

深入 Transformer 學術核心：從數學原理到跨領域應用

我將從更具學術性的角度，深入探討 Transformer 模型的數學原理，並展示其在不同領域的應用範例。以較淺顯易懂的方式介紹之後，我們將揭開 Transformer 模型內部最核心的運作機制。本文主要基於原論文《Attention Is All You Need》(Vaswani et al.

2025/07/21

深入 Transformer 學術核心：從數學原理到跨領域應用

2025/07/21

NLP 模型的革命：一次看懂 Transformer 原理 (不再死記硬背的超級大腦)

在之前的文章中，我們認識了 RNN 和 LSTM。它們像是一個個勤奮的學徒，一個字一個字地閱讀，努力記住上下文。但這種「循序漸進」的模式，天生就存在兩個問題： * 速度瓶頸：就像玩「傳話遊戲」，必須等前一個人說完，下一個人才能接話。這導致模型訓練速度很慢，難以處理海量資料。 * 長距離失

2025/07/21

NLP 模型的革命：一次看懂 Transformer 原理 (不再死記硬背的超級大腦)

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15