深度強化學習 (DRL) 的核心數理原理

更新於 發佈於 閱讀時間約 9 分鐘

讓我們深入探討 深度強化學習 (DRL) 模型的數理與原理,這會稍微燒腦一點,但保證讓你對 DRL 的核心運作有更透徹的理解。

還記得我們之前提到的,DRL 結合了「深度學習」和「強化學習」嗎?它的強大之處,就在於能讓機器透過不斷與環境互動、從「經驗」中學習,進而優化決策。這背後的數理支撐,主要來自以下幾個關鍵概念:

1. 強化學習 (Reinforcement Learning, RL) 的基礎:馬可夫決策過程 (Markov Decision Process, MDP) 🎲

DRL 的決策過程可以用 馬可夫決策過程 (MDP) 來數學化描述。想像一個遊戲,你每走一步,遊戲的狀態就會改變,然後你可能得到獎勵或懲罰。

一個 MDP 包含以下五個核心元素:

* 狀態空間 (State Space, S):所有可能出現的環境狀態集合。例如,在象棋遊戲中,棋盤上所有可能的棋子佈局。

* 動作空間 (Action Space, A):在每個狀態下,智能體 (Agent) 可以執行的所有可能動作集合。例如,在象棋遊戲中,所有可能的合法走棋。

* 轉移機率 (Transition Probability, P(s' | s, a)):從狀態 s 執行動作 a 後,轉移到下一個狀態 s' 的機率。這描述了環境的動態。

* 獎勵函數 (Reward Function, R(s, a, s')):從狀態 s 執行動作 a 並轉移到 s' 後,智能體獲得的即時獎勵。智能體的目標就是最大化這個獎勵的累積值。

* 折扣因子 (Discount Factor, \gamma \in [0, 1)):一個介於 0 和 1 之間的常數,用來衡量未來獎勵的重要性。\gamma 越接近 0,智能體越看重眼前利益;越接近 1,則越看重長期利益。

智能體的目標是學習一個策略 (Policy, \pi(a|s)),這個策略定義了在給定狀態 s 下,選擇動作 a 的機率。好的策略會讓智能體在長期內獲得最大的累積獎勵。

2. 價值函數 (Value Functions):評估好壞的標準 📈

在 RL 中,我們需要一種方式來衡量一個狀態有多好,或者一個動作有多好。這就是價值函數的作用:

* 狀態價值函數 (State-Value Function)

raw-image

:衡量在遵循策略 \pi 的情況下,從狀態 s 開始,預期能獲得的累積折扣獎勵。

raw-image

這裡的 E_{\pi} 表示在策略 \pi 下的期望值。

* 動作價值函數 (Action-Value Function, Q^{\pi}(s, a)):衡量在狀態 s 執行動作 a 後,再遵循策略 \pi 的情況下,預期能獲得的累積折扣獎勵。

Q^{\pi}(s, a) = E_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \mid S_t = s, A_t = a \right]

我們通常會尋找最優策略 (\pi^*),它能最大化所有的狀態價值或動作價值。最優策略對應的動作價值函數稱為最優 Q 函數 (Q^*(s, a)),它滿足著名的貝爾曼最優方程 (Bellman Optimality Equation):

Q^*(s, a) = E_{s' \sim P} [R(s, a, s') + \gamma \max_{a'} Q^*(s', a')]

這個方程告訴我們,一個狀態-動作對的最佳 Q 值,等於即時獎勵加上折扣後的未來最佳 Q 值。

3. 深度學習 (Deep Learning) 的結合:應對複雜性

傳統 RL 方法在狀態和動作空間很小的時候表現不錯。但當遊戲畫面、高維度數據出現時,狀態空間變得巨大甚至無限,傳統方法就無能為力了。這時,深度學習就派上用場了。

* 深度 Q 網路 (Deep Q-Network, DQN):是 DRL 的一個里程碑。它使用神經網路 (Neural Network) 來近似 (approximate) Q 函數,即 Q(s, a; \theta),其中 \theta 是神經網路的權重參數。

* 輸入:通常是當前狀態 s (例如:遊戲畫面像素值)。

* 輸出:對應所有可能動作的 Q 值。

* 訓練:DQN 的訓練目標是讓預測的 Q 值盡可能接近目標 Q 值。目標 Q 值通常基於貝爾曼方程計算,但為了穩定訓練,會使用目標網路 (Target Network) 和經驗回放 (Experience Replay) 等技巧。

DQN 的損失函數 (Loss Function) 通常是預測 Q 值與目標 Q 值之間的均方誤差 (Mean Squared Error, MSE):

L(\theta) = E_{(s, a, r, s') \sim D} \left[ \left( R + \gamma \max_{a'} Q(s', a'; \theta_{target}) - Q(s, a; \theta) \right)^2 \right]

其中 D 是經驗回放緩衝區,\theta_{target} 是目標網路的參數。

4. 從 DQN 到更先進的 DRL 演算法 🚀

DQN 開啟了 DRL 的黃金時代,但它也有其局限性(例如,只能處理離散動作空間)。為了解決這些問題,研究人員開發了更多元、更強大的 DRL 演算法:

* 策略梯度 (Policy Gradient) 方法:直接學習策略 \pi(a|s; \theta),而不是 Q 值。它們優化目標是期望的累積獎勵,例如:REINFORCE。

* Actor-Critic (A2C/A3C) 演算法:結合了策略梯度和價值函數的方法。其中 "Actor" 負責學習策略 (行動),"Critic" 負責學習價值函數 (評估行動好壞)。

* 信任區域策略優化 (Trust Region Policy Optimization, TRPO) 和 近端策略優化 (Proximal Policy Optimization, PPO):這些演算法在策略更新時加入了約束,確保每次更新不會改變策略太多,從而提高訓練穩定性。它們在複雜環境中表現出色。

* 軟性演員-評論家 (Soft Actor-Critic, SAC):在獎勵中加入一個熵 (Entropy) 項,鼓勵探索,同時追求最大化獎勵。

DRL 的訓練流程簡述

總體來說,DRL 模型的訓練流程大致如下:

* 初始化:初始化神經網路參數和環境。

* 互動與採樣:智能體根據當前策略(或 Q 函數)在環境中採取動作,觀察環境的新狀態和獲得的獎勵。

* 經驗回放:將「狀態-動作-獎勵-新狀態」的轉變經驗儲存到一個緩衝區。

* 學習與更新:從經驗回放緩衝區中隨機抽取一批經驗數據,用這些數據來訓練神經網路,更新模型的參數。這一步是基於貝爾曼方程或策略梯度的優化。

* 重複:不斷重複步驟 2-4,直到模型收斂或達到預設的訓練次數。

結語

DRL 模型背後的數理原理,雖然看似複雜,但其核心思想都是為了讓機器能夠在不確定性中做出最優決策。從 MDP 的基礎框架,到價值函數的評估,再到深度神經網路的強大近似能力,這些要素共同構成了 DRL 的智能學習引擎。

如果你對 DRL 模型的哪個具體演算法或數學細節特別感興趣,歡迎提出來,我們可以再深入探討。

#DRL #深度強化學習 #數理原理 #機器學習 #人工智慧 #AI技術 #神經網路 #馬可夫決策過程 #Q學習 #PolicyGradient

留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
82內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/07/22
DRL,也就是深度強化學習 (Deep Reinforcement Learning),是近年來人工智慧領域最火熱的技術之一。🔥 它結合了深度學習的強大感知能力和強化學習的決策學習能力,讓機器可以像人類一樣,透過不斷的「嘗試錯誤」來學習、進而做出最棒的決策。
2025/07/22
DRL,也就是深度強化學習 (Deep Reinforcement Learning),是近年來人工智慧領域最火熱的技術之一。🔥 它結合了深度學習的強大感知能力和強化學習的決策學習能力,讓機器可以像人類一樣,透過不斷的「嘗試錯誤」來學習、進而做出最棒的決策。
2025/07/21
我將從更具學術性的角度,深入探討 Transformer 模型的數學原理,並展示其在不同領域的應用範例。 以較淺顯易懂的方式介紹之後,我們將揭開 Transformer 模型內部最核心的運作機制。本文主要基於原論文《Attention Is All You Need》(Vaswani et al.
2025/07/21
我將從更具學術性的角度,深入探討 Transformer 模型的數學原理,並展示其在不同領域的應用範例。 以較淺顯易懂的方式介紹之後,我們將揭開 Transformer 模型內部最核心的運作機制。本文主要基於原論文《Attention Is All You Need》(Vaswani et al.
2025/07/21
在之前的文章中,我們認識了 RNN 和 LSTM。它們像是一個個勤奮的學徒,一個字一個字地閱讀,努力記住上下文。 但這種「循序漸進」的模式,天生就存在兩個問題: * 速度瓶頸:就像玩「傳話遊戲」,必須等前一個人說完,下一個人才能接話。這導致模型訓練速度很慢,難以處理海量資料。 * 長距離失
2025/07/21
在之前的文章中,我們認識了 RNN 和 LSTM。它們像是一個個勤奮的學徒,一個字一個字地閱讀,努力記住上下文。 但這種「循序漸進」的模式,天生就存在兩個問題: * 速度瓶頸:就像玩「傳話遊戲」,必須等前一個人說完,下一個人才能接話。這導致模型訓練速度很慢,難以處理海量資料。 * 長距離失
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
長短期記憶(英語:Long Short-Term Memory,LSTM)是一種時間循環神經網路(RNN),論文首次發表於1997年。 LSTM(長短期記憶)是一種特定類型的遞歸神經網絡(RNN),在許多需要處理時間序列數據或順序數據的應用中非常有用。 以下是一些常見的 LSTM 應用:
Thumbnail
長短期記憶(英語:Long Short-Term Memory,LSTM)是一種時間循環神經網路(RNN),論文首次發表於1997年。 LSTM(長短期記憶)是一種特定類型的遞歸神經網絡(RNN),在許多需要處理時間序列數據或順序數據的應用中非常有用。 以下是一些常見的 LSTM 應用:
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文將展示使用不同激活函數(ReLU 和 Sigmoid)的效果。 一個簡單的多層感知器(MLP)模型來對 Fashion-MNIST 資料集進行分類。 函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間: 特性: 輸出範圍是 (0,1)(0, 1)(0,1
Thumbnail
本文將展示使用不同激活函數(ReLU 和 Sigmoid)的效果。 一個簡單的多層感知器(MLP)模型來對 Fashion-MNIST 資料集進行分類。 函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間: 特性: 輸出範圍是 (0,1)(0, 1)(0,1
Thumbnail
這篇文章,會帶著大家複習以前學過的DFS框架, 並且以圖論的應用題與概念為核心, 貫穿一些相關聯的題目,透過框架複現來幫助讀者理解這個演算法框架。 DFS 深度優先搜索框架 def dfs( parameter ): # 邊界條件 if base case or stop cond
Thumbnail
這篇文章,會帶著大家複習以前學過的DFS框架, 並且以圖論的應用題與概念為核心, 貫穿一些相關聯的題目,透過框架複現來幫助讀者理解這個演算法框架。 DFS 深度優先搜索框架 def dfs( parameter ): # 邊界條件 if base case or stop cond
Thumbnail
這篇文章,會帶著大家複習以前學過的DFS框架 結合樹型DP, 並且以路徑和Path Sum的概念與應用為核心, 貫穿一些相關聯的題目,透過框架複現來幫助讀者理解這個演算法框架。 DFS 深度優先搜索框架 def dfs( parameter ): if base case or sto
Thumbnail
這篇文章,會帶著大家複習以前學過的DFS框架 結合樹型DP, 並且以路徑和Path Sum的概念與應用為核心, 貫穿一些相關聯的題目,透過框架複現來幫助讀者理解這個演算法框架。 DFS 深度優先搜索框架 def dfs( parameter ): if base case or sto
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News