第三部《強化學習》43/100 DQN 架構概覽 🏗 輸入狀態 → 神經網路 → 輸出動作 Q 值!

更新 發佈閱讀 8 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

43/100 第五週:📌 Deep Q-Network(DQN)與深度強化學習入門

43.DQN 架構概覽 🏗 輸入狀態 → 神經網路 → 輸出動作 Q 值!

________________________________________

🎯 單元導讀

DQN(Deep Q-Network)是深度強化學習中的經典架構,

它成功將 Q-Learning 搭配神經網路,解決了無法處理高維狀態空間的問題。

從輸入狀態 → 通過神經網路 → 預測每個動作的 Q 值,

DQN 為強化學習注入了強大的感知能力與泛化能力,

成功應用在 Atari 電玩、自駕車、金融交易等多種領域!

________________________________________

🧠 一、DQN 架構的核心流程

整體架構可分為 4 大模組:

觀察輸入 → Q 網路 → 動作選擇 → 經驗學習

🎥 輸入觀察 : 將環境狀態轉換為神經網路可處理的向量(或影像)

🧠 Q 函數逼近 : 用 DNN 輸入狀態,輸出所有動作對應的 Q 值

🎯 動作決策 : 使用 ε-Greedy 政策從 Q 值中選擇動作

📦 經驗回放 : 將 (s, a, r, s') 儲存進 Replay Buffer,供後續訓練

________________________________________

🏗 二、DQN 神經網路結構

🧩 輸入層:

通常為環境狀態,如:

o 向量型:位置、速度等(如 [x, y, v])

o 影像型:Atari 畫面(如 84×84 灰階圖)

🔄 隱藏層:

多層全連接 / 卷積層(視輸入形式而定)

激活函數:ReLU 通常為預設選擇

📈 輸出層:

輸出所有合法動作的 Q 值:

Output: [Q(s, a₁), Q(s, a₂), ..., Q(s, aₖ)]

________________________________________

🔁 三、DQN 更新與學習機制

🧪 TD 誤差 → 損失函數 Loss = (r + γ * max Q(s', a')) - Q(s, a)

🎯 Target Network → 使用一份凍結版本的 Q 網路進行目標值計算(穩定訓練)

🧊 Replay Buffer → 儲存過往經驗,隨機抽樣避免資料相關性問題

🎲 ε-Greedy 探索 → 機率 ε 探索隨機動作,其餘時間採最佳行動

________________________________________

📸 四、DQN 架構圖解(簡易示意)

+-------------------+

| 環境觀察 s |

+-------------------+

+-------------------+

| Q-Network (DNN) |

+-------------------+

+-------------------+

| Q(s, a₁), Q(s, a₂), ..., Q(s, aₖ)

+-------------------+

+-------------------+

| 動作選擇 (ε-Greedy) |

+-------------------+

+-------------------+

| 執行動作 a,獲得 r, s'

+-------------------+

+-------------------+

| 儲存進 Replay Buffer

+-------------------+

這是一個簡化版的 DQN (Deep Q-Network) 架構示意圖。首先,智慧體從環境中獲取當前的狀態觀察 s,並將其輸入到深度神經網路(Q-Network)。神經網路輸出對應於該狀態下每個可能行動的 Q 值,即 Q(s, a₁), Q(s, a₂), ..., Q(s, aₖ)。接著,透過 ε-Greedy 策略 決定要採取的行動:大部分時間選擇目前 Q 值最高的行動,少部分時間隨機探索。執行選定動作後,智慧體從環境獲得即時回饋 r 及下一個新狀態 s'。最後,這筆經驗 (s, a, r, s') 會儲存進 Replay Buffer 中,讓後續訓練時能從多樣化歷史經驗中隨機取樣,有效打破資料相關性,提升訓練穩定性。

________________________________________

🧪 五、DQN 實例簡述(以 Atari 為例)

輸入:四張連續畫面(預處理為 84x84 的影像)

隱藏層:卷積層 + ReLU

輸出層:每個方向(上、下、左、右)對應的 Q 值

決策策略:ε-Greedy,初期多探索,後期轉向利用

學習機制:使用 Replay Buffer + Target Network 提升穩定性

________________________________________

🔍 六、注意事項與挑戰

1️⃣ 梯度爆炸或消失問題

選擇合適的激活函數與初始化方式

加入 BatchNorm 或 Gradient Clipping

2️⃣ 探索不足 → 陷入局部最優解

調整 ε 起始值與遞減策略(如線性下降)

3️⃣ 目標網路同步頻率過高 → 不穩定

建議每隔固定步數才更新 Target Network

________________________________________

💡 七、延伸思考與生活類比

1️⃣ Replay Buffer 在生活中的比喻?

👉 像是一個回憶錄,你從過去經驗中回顧並學習,而不是只記當下。

2️⃣ Target Network 的穩定性,像什麼?

👉 像是你不會天天改變人生目標,而是定期評估修正!

________________________________________

✅ 八、小結與啟示

DQN 是將神經網路導入 Q-Learning 的劃時代架構

能處理高維資料、影像、連續輸入等複雜問題

Replay Buffer、Target Network、ε-Greedy 是三大穩定學習法寶

學習過程像人生:觀察 → 評估 → 決策 → 回顧 → 修正,步步成長!


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
10會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/24
ChatGPT 說: 傳統 Q 表格難以處理高維狀態空間,DQN 以神經網路逼近 Q 函數,能泛化經驗並學習複雜策略。其核心包含 TD 誤差更新、Replay Buffer 與 Target Network。雖有過度估計與過擬合風險,但應用於遊戲、自駕車、金融等場景展現強大實力。
2025/09/24
ChatGPT 說: 傳統 Q 表格難以處理高維狀態空間,DQN 以神經網路逼近 Q 函數,能泛化經驗並學習複雜策略。其核心包含 TD 誤差更新、Replay Buffer 與 Target Network。雖有過度估計與過擬合風險,但應用於遊戲、自駕車、金融等場景展現強大實力。
2025/09/24
深度強化學習結合神經網路與 RL,能處理高維感知與連續狀態,突破傳統表格法限制。DQN 引入經驗回放、目標網路與 ε-greedy,首次在 Atari 遊戲展現超越人類的成果。雖訓練需高資源且不穩定,但應用於自駕車、機器人、金融與智慧工廠前景廣闊。
2025/09/24
深度強化學習結合神經網路與 RL,能處理高維感知與連續狀態,突破傳統表格法限制。DQN 引入經驗回放、目標網路與 ε-greedy,首次在 Atari 遊戲展現超越人類的成果。雖訓練需高資源且不穩定,但應用於自駕車、機器人、金融與智慧工廠前景廣闊。
2025/09/24
時序差分方法透過 TD 誤差實現即時學習,不需完整模型即可邊互動邊更新。SARSA 保守穩定,適合高風險任務;Q-Learning 激進高效,收斂較快。TD(λ) 融合短期與長期回饋,加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。
2025/09/24
時序差分方法透過 TD 誤差實現即時學習,不需完整模型即可邊互動邊更新。SARSA 保守穩定,適合高風險任務;Q-Learning 激進高效,收斂較快。TD(λ) 融合短期與長期回饋,加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。
看更多
你可能也想看
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
誠品生活|科技應用 書櫃陳列著與AI相關軟硬體的科技應用實作材料包,包含物聯網、影像辨識、機器學習、生醫感測等實作套裝材料。 選擇趨勢|科技玩物 這麼多科技應用實作包,怎麼選呢? 科技日新月異 科技玩物在生活中反應的特徵詞: 顛覆、科幻、新奇、便利、酷炫、魔法、未來
Thumbnail
誠品生活|科技應用 書櫃陳列著與AI相關軟硬體的科技應用實作材料包,包含物聯網、影像辨識、機器學習、生醫感測等實作套裝材料。 選擇趨勢|科技玩物 這麼多科技應用實作包,怎麼選呢? 科技日新月異 科技玩物在生活中反應的特徵詞: 顛覆、科幻、新奇、便利、酷炫、魔法、未來
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News