第三部《強化學習》42/100 用神經網路逼近 Q 函數 📈 將 Q 表格升級為函數估算器！

發佈於AI科技機器學習修煉坊

2025/09/24 更新2025/09/24 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

42/100 第五週：📌 Deep Q-Network（DQN）與深度強化學習入門

42.用神經網路逼近 Q 函數 📈 將 Q 表格升級為函數估算器！

________________________________________

🎯 單元導讀

在傳統的 Q-Learning 中，我們會用一張 Q 表格（Q-table）記錄每個狀態-行動組合的價值：

Q(s, a) → 表格索引查找

但當環境狀態空間變得極大（如影像輸入、連續變數），表格法將難以維護與擴展。

這時候，我們可以使用神經網路作為 Q 函數逼近器（Function Approximator），學會在任何狀態下預測 Q 值！

這正是深度 Q 網路（DQN）的核心思想！

________________________________________

🧠 一、為什麼要逼近 Q 函數？

問題說明

表格法限制需要為每個狀態-行動組合存一筆資料，維度太高時爆炸

無法泛化每個狀態被視為獨立，不會從類似狀態中學習

資料稀疏大多數狀態-行動對根本沒出現過，學不到價值

👉 使用神經網路後，我們可用以下方式近似 Q 函數：

Q(s, a) ≈ DNN(s, a; θ)

神經網路能「泛化」經驗 → 看過的幫助沒看過的！

________________________________________

🔁 二、深度 Q 網路（DQN）的模型設計

通常我們會設計一個神經網路：

• 輸入層：環境觀察（可為向量或圖像）

• 隱藏層：若干層 ReLU（或其他激活函數）神經元

• 輸出層：針對每個可能的行動 a，預測對應的 Q 值

範例架構（以小型網路為例）：

Input: state s (e.g., [x, y, velocity])

Hidden: 128 units → 64 units

Output: [Q(s, a₁), Q(s, a₂), ..., Q(s, aₖ)]

選擇動作時：

a = argmax_a Q(s, a) = argmax_a DNN(s; θ)

________________________________________

🧪 三、DQN 的更新規則與 TD 誤差

訓練過程中，我們用 TD 誤差作為損失函數來更新神經網路：

Loss = (r + γ * max Q(s', a'; θ_target) - Q(s, a; θ))²

• θ_target 是目標網路參數（定期複製）

• θ 是主網路參數（即時更新）

這樣做可減少學習不穩定性，提升收斂速度！

________________________________________

📸 四、函數逼近 Q 的實際應用場景

🎮 電玩遊戲畫面輸入：以 Atari 為例，輸入 84×84 灰階影像，輸出對應各行動的 Q 值。
🚗 自駕車感測數據：輸入來自雷達或 LiDAR 的環境資訊，輸出轉彎、加速、煞車等控制 Q 值。
💹 金融交易：輸入股價走勢與技術指標，輸出買入、賣出、持有的 Q 值判斷。

________________________________________

🔍 五、挑戰與注意事項

1️⃣ 過度估計問題（Overestimation Bias）

• DQN 使用 max Q 易導致高估

• 解法：使用 Double DQN 分離動作選擇與評估

2️⃣ 不穩定與發散風險

• 使用 Replay Buffer 與 Target Network 是為了解決這些問題

• 可搭配 BatchNorm、Dropout 穩定訓練

3️⃣ 連續動作空間不可用 DQN

• 若動作空間為連續（如 -1 ~ +1），DQN 不適合，需改用 DDPG、SAC 等方法

________________________________________

💡 六、延伸思考與提問

1️⃣ 在影像輸入環境中，Q 表格為什麼不可行？

👉

影像輸入的狀態空間維度極高（例如 84×84 像素的灰階畫面就有 7,056 維），若用表格記錄每一個可能像素組合的 Q 值，狀態總數幾乎是無限大，無法儲存也無法涵蓋全部狀態。

試想：即使僅有 256 級灰階，所有像素排列組合會達到 256⁷⁰⁵⁶ 種可能，根本無法用表格存儲與學習。

這就是為什麼需要用神經網路進行函數逼近，透過模型自動學習如何從高維影像中抽取有用的特徵，估計出合理的 Q 值。

2️⃣ 你能想到哪些人生行為，也需要「類比經驗泛化」？

👉

面試應對：不同公司面試問題略有差異，但可利用過去回答經驗快速泛化新情境。

社交對話：與不同人聊天時，需要依據以往對人性格、情境的理解快速調整回應。

策略規劃：經營事業、投資理財等，面臨新局勢時需套用過去模式做出類比推估。

職場溝通：過去與上司、客戶的互動經驗，幫助預測不同主管與客戶的溝通風格。

這些其實都像是人類自然使用的「經驗轉移學習 (Transfer Learning)」。

3️⃣ 神經網路在 Q 函數估算中，有無可能產生過擬合？

👉

有可能。當資料樣本不足或訓練回合有限時，神經網路容易對某些狀態-行動對應關係學得過於精確，失去泛化能力。

可能造成後果：遇到未看過的類似狀態時，Q 值估計嚴重偏差，學習表現不穩定。

防止過擬合的方法：

🛑 Early Stopping：監控驗證集表現，提早終止訓練；

🎯 正則化 (L2/L1)：限制模型權重複雜度；

🎲 Dropout：隨機屏蔽神經元增加泛化能力；

🔄 經驗回放 (Replay Buffer)：增加訓練資料多樣性；

📊 目標網路 (Target Network)：穩定目標 Q 值，減少快速震盪。

________________________________________

✅ 七、小結與啟示

• Q 函數表格無法應對高維狀態空間

• 用神經網路逼近 Q(s,a) 是深度強化學習的核心

• 搭配 TD 誤差更新、Replay Buffer 與 Target Network 可提升學習穩定性

• 對 AI 而言，Q 函數是價值觀；對人類而言，則是經驗與判斷的智慧！

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

459內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/24

第三部《強化學習》41/100 深度強化學習是什麼？🧠 結合神經網路與強化學習的跨時代技術！

深度強化學習結合神經網路與 RL，能處理高維感知與連續狀態，突破傳統表格法限制。DQN 引入經驗回放、目標網路與 ε-greedy，首次在 Atari 遊戲展現超越人類的成果。雖訓練需高資源且不穩定，但應用於自駕車、機器人、金融與智慧工廠前景廣闊。

2025/09/24

第三部《強化學習》41/100 深度強化學習是什麼？🧠 結合神經網路與強化學習的跨時代技術！

深度強化學習結合神經網路與 RL，能處理高維感知與連續狀態，突破傳統表格法限制。DQN 引入經驗回放、目標網路與 ε-greedy，首次在 Atari 遊戲展現超越人類的成果。雖訓練需高資源且不穩定，但應用於自駕車、機器人、金融與智慧工廠前景廣闊。

2025/09/24

第三部《強化學習》40/100 第四周小結與測驗：TD 方法的應用場景與限制 📌 理清適用場域！

時序差分方法透過 TD 誤差實現即時學習，不需完整模型即可邊互動邊更新。SARSA 保守穩定，適合高風險任務；Q-Learning 激進高效，收斂較快。TD(λ) 融合短期與長期回饋，加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。

2025/09/24

第三部《強化學習》40/100 第四周小結與測驗：TD 方法的應用場景與限制 📌 理清適用場域！

時序差分方法透過 TD 誤差實現即時學習，不需完整模型即可邊互動邊更新。SARSA 保守穩定，適合高風險任務；Q-Learning 激進高效，收斂較快。TD(λ) 融合短期與長期回饋，加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。

2025/09/24

第三部《強化學習》39/100 錯誤傳播與延遲效應解析 🔄 從當下回推未來的關鍵技巧！

錯誤傳播透過 TD 誤差將延遲獎勵逐步回傳至先前狀態，幫助 AI 學會「從結果推前因」。Eligibility Traces 加速多步更新，提升學習效率。γ、α、λ 需調校以確保穩定。此機制廣泛應用於遊戲、自駕車、投資等延遲回報場景。

2025/09/24

第三部《強化學習》39/100 錯誤傳播與延遲效應解析 🔄 從當下回推未來的關鍵技巧！

錯誤傳播透過 TD 誤差將延遲獎勵逐步回傳至先前狀態，幫助 AI 學會「從結果推前因」。Eligibility Traces 加速多步更新，提升學習效率。γ、α、λ 需調校以確保穩定。此機制廣泛應用於遊戲、自駕車、投資等延遲回報場景。

你可能也想看

咖啡控的0元回血實驗：加入蝦皮分潤計畫後，我的1111購物車能回本嗎？

這篇文章是一位咖啡愛好者分享他在雙11前的購物規劃。他不僅推薦了自己喜愛的咖啡豆品牌（如李董、音樂家系列）與手沖器材，還分享了實用的挑豆技巧。同時，他記錄了一項個人實驗：剛加入「蝦皮分潤計畫」，想測試透過分享真心喜愛的商品，是否能為自己的咖啡開銷「回血」。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

咖啡控的0元回血實驗：加入蝦皮分潤計畫後，我的1111購物車能回本嗎？

這篇文章是一位咖啡愛好者分享他在雙11前的購物規劃。他不僅推薦了自己喜愛的咖啡豆品牌（如李董、音樂家系列）與手沖器材，還分享了實用的挑豆技巧。同時，他記錄了一項個人實驗：剛加入「蝦皮分潤計畫」，想測試透過分享真心喜愛的商品，是否能為自己的咖啡開銷「回血」。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

吃喝玩樂皮丹媽媽(๑´ڡ`๑)

完整出國行李清單｜出國旅行必備物品＆蝦皮購物攻略

出國旅行時，準備充分的行李能讓旅程更加輕鬆愉快！本文整理了大人旅行的全方位行李清單，從護照、信用卡到各種旅行好物一應俱全。特別是防盜小物、瞬熱熱水壺和過濾蓮蓬頭等必備單品，讓你的旅行更舒適、安全。此外，還介紹了蝦皮分潤計劃，讓你在購物的同時還能輕鬆賺取分潤，無論是準備行李還是購物分享，都是不錯的選擇

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

吃喝玩樂皮丹媽媽(๑´ڡ`๑)

完整出國行李清單｜出國旅行必備物品＆蝦皮購物攻略

出國旅行時，準備充分的行李能讓旅程更加輕鬆愉快！本文整理了大人旅行的全方位行李清單，從護照、信用卡到各種旅行好物一應俱全。特別是防盜小物、瞬熱熱水壺和過濾蓮蓬頭等必備單品，讓你的旅行更舒適、安全。此外，還介紹了蝦皮分潤計劃，讓你在購物的同時還能輕鬆賺取分潤，無論是準備行李還是購物分享，都是不錯的選擇

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Learn AI 不 BI

AI說書 - 從0開始 - 92

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 92

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 89

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 89

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 75

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 74 中提到，我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。有鑑於此，我們以句子「

#AI#ai#PromptEngineering

2024/07/06

Learn AI 不 BI

AI說書 - 從0開始 - 75

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 74 中提到，我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。有鑑於此，我們以句子「

#AI#ai#PromptEngineering

2024/07/06

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 6

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 5中說當Context長度是d，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI#ai#PromptEngineering

2024/06/08

Learn AI 不 BI

AI說書 - 從0開始 - 6

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 5中說當Context長度是d，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI#ai#PromptEngineering

2024/06/08

小松鼠的演算法樂園

DP演算法框架與推薦的DP學習路徑 (持續更新中)

DP特訓班的分類目錄與推薦的學習、練習順序

#python#leetcode#algorithm

2024/06/06

小松鼠的演算法樂園

DP演算法框架與推薦的DP學習路徑 (持續更新中)

DP特訓班的分類目錄與推薦的學習、練習順序

#python#leetcode#algorithm

2024/06/06

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News