第三部《強化學習》43/100 DQN 架構概覽 🏗 輸入狀態 → 神經網路 → 輸出動作 Q 值！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/24 更新2025/09/24 發佈閱讀 8 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

43/100 第五週：📌 Deep Q-Network（DQN）與深度強化學習入門

43.DQN 架構概覽 🏗 輸入狀態 → 神經網路 → 輸出動作 Q 值！

________________________________________

🎯 單元導讀

DQN（Deep Q-Network）是深度強化學習中的經典架構，

它成功將 Q-Learning 搭配神經網路，解決了無法處理高維狀態空間的問題。

從輸入狀態 → 通過神經網路 → 預測每個動作的 Q 值，

DQN 為強化學習注入了強大的感知能力與泛化能力，

成功應用在 Atari 電玩、自駕車、金融交易等多種領域！

________________________________________

🧠 一、DQN 架構的核心流程

整體架構可分為 4 大模組：

觀察輸入 → Q 網路 → 動作選擇 → 經驗學習

🎥 輸入觀察 : 將環境狀態轉換為神經網路可處理的向量（或影像）

🧠 Q 函數逼近 : 用 DNN 輸入狀態，輸出所有動作對應的 Q 值

🎯 動作決策 : 使用 ε-Greedy 政策從 Q 值中選擇動作

📦 經驗回放 : 將 (s, a, r, s') 儲存進 Replay Buffer，供後續訓練

________________________________________

🏗 二、DQN 神經網路結構

🧩 輸入層：

• 通常為環境狀態，如：

o 向量型：位置、速度等（如 [x, y, v]）

o 影像型：Atari 畫面（如 84×84 灰階圖）

🔄 隱藏層：

• 多層全連接 / 卷積層（視輸入形式而定）

• 激活函數：ReLU 通常為預設選擇

📈 輸出層：

• 輸出所有合法動作的 Q 值：

Output: [Q(s, a₁), Q(s, a₂), ..., Q(s, aₖ)]

________________________________________

🔁 三、DQN 更新與學習機制

🧪 TD 誤差 → 損失函數 Loss = (r + γ * max Q(s', a')) - Q(s, a)

🎯 Target Network → 使用一份凍結版本的 Q 網路進行目標值計算（穩定訓練）

🧊 Replay Buffer → 儲存過往經驗，隨機抽樣避免資料相關性問題

🎲 ε-Greedy 探索 → 機率 ε 探索隨機動作，其餘時間採最佳行動

________________________________________

📸 四、DQN 架構圖解（簡易示意）

+-------------------+

| 環境觀察 s |

+-------------------+

↓

+-------------------+

| Q-Network (DNN) |

+-------------------+

↓

+-------------------+

| Q(s, a₁), Q(s, a₂), ..., Q(s, aₖ)

+-------------------+

↓

+-------------------+

| 動作選擇 (ε-Greedy) |

+-------------------+

↓

+-------------------+

| 執行動作 a，獲得 r, s'

+-------------------+

↓

+-------------------+

| 儲存進 Replay Buffer

+-------------------+

這是一個簡化版的 DQN (Deep Q-Network) 架構示意圖。首先，智慧體從環境中獲取當前的狀態觀察 s，並將其輸入到深度神經網路（Q-Network）。神經網路輸出對應於該狀態下每個可能行動的 Q 值，即 Q(s, a₁), Q(s, a₂), ..., Q(s, aₖ)。接著，透過 ε-Greedy 策略決定要採取的行動：大部分時間選擇目前 Q 值最高的行動，少部分時間隨機探索。執行選定動作後，智慧體從環境獲得即時回饋 r 及下一個新狀態 s'。最後，這筆經驗 (s, a, r, s') 會儲存進 Replay Buffer 中，讓後續訓練時能從多樣化歷史經驗中隨機取樣，有效打破資料相關性，提升訓練穩定性。

________________________________________

🧪 五、DQN 實例簡述（以 Atari 為例）

• 輸入：四張連續畫面（預處理為 84x84 的影像）

• 隱藏層：卷積層 + ReLU

• 輸出層：每個方向（上、下、左、右）對應的 Q 值

• 決策策略：ε-Greedy，初期多探索，後期轉向利用

• 學習機制：使用 Replay Buffer + Target Network 提升穩定性

________________________________________

🔍 六、注意事項與挑戰

1️⃣ 梯度爆炸或消失問題

• 選擇合適的激活函數與初始化方式

• 加入 BatchNorm 或 Gradient Clipping

2️⃣ 探索不足 → 陷入局部最優解

• 調整 ε 起始值與遞減策略（如線性下降）

3️⃣ 目標網路同步頻率過高 → 不穩定

• 建議每隔固定步數才更新 Target Network

________________________________________

💡 七、延伸思考與生活類比

1️⃣ Replay Buffer 在生活中的比喻？

👉 像是一個回憶錄，你從過去經驗中回顧並學習，而不是只記當下。

2️⃣ Target Network 的穩定性，像什麼？

👉 像是你不會天天改變人生目標，而是定期評估修正！

________________________________________

✅ 八、小結與啟示

• DQN 是將神經網路導入 Q-Learning 的劃時代架構

• 能處理高維資料、影像、連續輸入等複雜問題

• Replay Buffer、Target Network、ε-Greedy 是三大穩定學習法寶

• 學習過程像人生：觀察 → 評估 → 決策 → 回顧 → 修正，步步成長！

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

459內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/24

第三部《強化學習》42/100 用神經網路逼近 Q 函數 📈 將 Q 表格升級為函數估算器！

ChatGPT 說：傳統 Q 表格難以處理高維狀態空間，DQN 以神經網路逼近 Q 函數，能泛化經驗並學習複雜策略。其核心包含 TD 誤差更新、Replay Buffer 與 Target Network。雖有過度估計與過擬合風險，但應用於遊戲、自駕車、金融等場景展現強大實力。

2025/09/24

第三部《強化學習》42/100 用神經網路逼近 Q 函數 📈 將 Q 表格升級為函數估算器！

2025/09/24

第三部《強化學習》41/100 深度強化學習是什麼？🧠 結合神經網路與強化學習的跨時代技術！

深度強化學習結合神經網路與 RL，能處理高維感知與連續狀態，突破傳統表格法限制。DQN 引入經驗回放、目標網路與 ε-greedy，首次在 Atari 遊戲展現超越人類的成果。雖訓練需高資源且不穩定，但應用於自駕車、機器人、金融與智慧工廠前景廣闊。

2025/09/24

第三部《強化學習》41/100 深度強化學習是什麼？🧠 結合神經網路與強化學習的跨時代技術！

2025/09/24

第三部《強化學習》40/100 第四周小結與測驗：TD 方法的應用場景與限制 📌 理清適用場域！

時序差分方法透過 TD 誤差實現即時學習，不需完整模型即可邊互動邊更新。SARSA 保守穩定，適合高風險任務；Q-Learning 激進高效，收斂較快。TD(λ) 融合短期與長期回饋，加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。

2025/09/24

第三部《強化學習》40/100 第四周小結與測驗：TD 方法的應用場景與限制 📌 理清適用場域！

看更多

你可能也想看

Emma 的意識界。

雙 11 你想買啥? 讓我們來清空購物車順便賺零用金吧😁蝦皮分潤計畫最佳進場時機

搬家不只添購必需品，更能透過蝦皮分潤計畫賺取零用金！本文分享近期搬家時添購的各種實用好物，包含多功能工作桌、電競椅、氣炸烤箱、收納神器等，並詳述如何透過蝦皮雙 11 活動聰明購物、善用優惠，同時利用分潤機制將敗家行為轉化為被動收入，推薦給想聰明消費又想賺額外收入的你！

#蝦皮#廚房#烤箱

2025/11/05

Emma 的意識界。

雙 11 你想買啥? 讓我們來清空購物車順便賺零用金吧😁蝦皮分潤計畫最佳進場時機

#蝦皮#廚房#烤箱

2025/11/05

Have a nice day

{好物}蝦皮購物😺貓零食開箱🐟雙11購物攻略🌟0元免運🌟蝦皮分潤=收入🌹

貓奴每月進貢的時間又來啦! 身為專業貢品官，我從蝦皮搜尋各種零食，只為取悅家中三位貓主子！結果究竟會是龍心大悅，亦或是冷眼相待，就讓我們繼續看下去~

#方格新手#蝦皮購物#蝦皮

2025/11/05

Have a nice day

{好物}蝦皮購物😺貓零食開箱🐟雙11購物攻略🌟0元免運🌟蝦皮分潤=收入🌹

#方格新手#蝦皮購物#蝦皮

2025/11/05

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

普普文創

【文創漫談】人工智慧與機器學習 | 如何利用AI | 增強能力

人工智慧是什麼？人工智慧（Artificial Intelligence, AI）簡單來說，就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序，可以執行許多原本需要人類智慧才能完成的工作，例如：語音辨識：讓電腦聽懂人類的語言，像是 Siri、Google As

#文創漫談#人工智慧與機器學習#如何利用AI

2024/07/30

普普文創

【文創漫談】人工智慧與機器學習 | 如何利用AI | 增強能力

#文創漫談#人工智慧與機器學習#如何利用AI

2024/07/30

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

#ChatGPT#AlphaGo#人工智慧

2024/07/19

談心說地

AI的世界：創新與潛力

AI的世界充滿了創新和潛力，涵蓋了許多領域，包括但不限於機器學習，自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的，既帶來了巨大的機遇，也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡，確保AI技術的應用能夠真正造福人類。

2024/07/14

2024/07/14

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 77 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 78

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 76 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

#AI#ai#PromptEngineering

2024/07/07

易樂的沙龍

AI時代: 無損編碼自由轉換和軟體定義硬件

本文章探討了多智能體系統（MAS）在生成式AI領域中的應用，以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響，並提供了有關GenAI的一些額外信息。

#人工智能#SSD#模型

2024/04/21

易樂的沙龍

AI時代: 無損編碼自由轉換和軟體定義硬件

#人工智能#SSD#模型

2024/04/21

D&Y熊繪生的沙龍

心情繪本｜DALL.E ｜單晶片｜開箱｜[學AI機器學習：不用靠電腦！]

誠品生活｜科技應用書櫃陳列著與AI相關軟硬體的科技應用實作材料包，包含物聯網、影像辨識、機器學習、生醫感測等實作套裝材料。選擇趨勢｜科技玩物這麼多科技應用實作包，怎麼選呢？科技日新月異科技玩物在生活中反應的特徵詞：顛覆、科幻、新奇、便利、酷炫、魔法、未來

#AI#機器學習#ML

2024/03/03

D&Y熊繪生的沙龍

心情繪本｜DALL.E ｜單晶片｜開箱｜[學AI機器學習：不用靠電腦！]

#AI#機器學習#ML

2024/03/03

美國人力資源港 - 九思觀點

何謂「人工智能」？What is AI?

AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域，包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性，還可解決複雜的問題和挑戰。

#人工智能#機器學習#深度學習

2024/02/23