第三部《強化學習》42/100 用神經網路逼近 Q 函數 📈 將 Q 表格升級為函數估算器!

更新 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

42/100 第五週:📌 Deep Q-Network(DQN)與深度強化學習入門

42.用神經網路逼近 Q 函數 📈 將 Q 表格升級為函數估算器!

________________________________________

🎯 單元導讀

在傳統的 Q-Learning 中,我們會用一張 Q 表格(Q-table)記錄每個狀態-行動組合的價值:

Q(s, a) → 表格索引查找

但當環境狀態空間變得極大(如影像輸入、連續變數),表格法將難以維護與擴展。

這時候,我們可以使用 神經網路作為 Q 函數逼近器(Function Approximator),學會在任何狀態下預測 Q 值!

這正是深度 Q 網路(DQN)的核心思想!

________________________________________

🧠 一、為什麼要逼近 Q 函數?

問題 說明

表格法限制 需要為每個狀態-行動組合存一筆資料,維度太高時爆炸

無法泛化 每個狀態被視為獨立,不會從類似狀態中學習

資料稀疏 大多數狀態-行動對根本沒出現過,學不到價值

👉 使用神經網路後,我們可用以下方式近似 Q 函數:

Q(s, a) ≈ DNN(s, a; θ)

神經網路能「泛化」經驗 → 看過的幫助沒看過的!

________________________________________

🔁 二、深度 Q 網路(DQN)的模型設計

通常我們會設計一個神經網路:

輸入層:環境觀察(可為向量或圖像)

隱藏層:若干層 ReLU(或其他激活函數)神經元

輸出層:針對每個可能的行動 a,預測對應的 Q 值

範例架構(以小型網路為例):

Input: state s (e.g., [x, y, velocity])

Hidden: 128 units → 64 units

Output: [Q(s, a₁), Q(s, a₂), ..., Q(s, aₖ)]

選擇動作時:

a = argmax_a Q(s, a) = argmax_a DNN(s; θ)

________________________________________

🧪 三、DQN 的更新規則與 TD 誤差

訓練過程中,我們用 TD 誤差作為損失函數來更新神經網路:

Loss = (r + γ * max Q(s', a'; θ_target) - Q(s, a; θ))²

θ_target 是目標網路參數(定期複製)

θ 是主網路參數(即時更新)

這樣做可減少學習不穩定性,提升收斂速度!

________________________________________

📸 四、函數逼近 Q 的實際應用場景

  • 🎮 電玩遊戲畫面輸入:以 Atari 為例,輸入 84×84 灰階影像,輸出對應各行動的 Q 值。
  • 🚗 自駕車感測數據:輸入來自雷達或 LiDAR 的環境資訊,輸出轉彎、加速、煞車等控制 Q 值。
  • 💹 金融交易:輸入股價走勢與技術指標,輸出買入、賣出、持有的 Q 值判斷。

________________________________________

🔍 五、挑戰與注意事項

1️⃣ 過度估計問題(Overestimation Bias)

DQN 使用 max Q 易導致高估

解法:使用 Double DQN 分離動作選擇與評估

2️⃣ 不穩定與發散風險

使用 Replay Buffer 與 Target Network 是為了解決這些問題

可搭配 BatchNorm、Dropout 穩定訓練

3️⃣ 連續動作空間不可用 DQN

若動作空間為連續(如 -1 ~ +1),DQN 不適合,需改用 DDPG、SAC 等方法

________________________________________

💡 六、延伸思考與提問

1️⃣ 在影像輸入環境中,Q 表格為什麼不可行?

👉

影像輸入的狀態空間維度極高(例如 84×84 像素的灰階畫面就有 7,056 維),若用表格記錄每一個可能像素組合的 Q 值,狀態總數幾乎是無限大,無法儲存也無法涵蓋全部狀態。

試想:即使僅有 256 級灰階,所有像素排列組合會達到 256⁷⁰⁵⁶ 種可能,根本無法用表格存儲與學習。

這就是為什麼需要用神經網路進行函數逼近,透過模型自動學習如何從高維影像中抽取有用的特徵,估計出合理的 Q 值。

2️⃣ 你能想到哪些人生行為,也需要「類比經驗泛化」?

👉

面試應對:不同公司面試問題略有差異,但可利用過去回答經驗快速泛化新情境。

社交對話:與不同人聊天時,需要依據以往對人性格、情境的理解快速調整回應。

策略規劃:經營事業、投資理財等,面臨新局勢時需套用過去模式做出類比推估。

職場溝通:過去與上司、客戶的互動經驗,幫助預測不同主管與客戶的溝通風格。

這些其實都像是人類自然使用的「經驗轉移學習 (Transfer Learning)」。

3️⃣ 神經網路在 Q 函數估算中,有無可能產生過擬合?

👉

有可能。當資料樣本不足或訓練回合有限時,神經網路容易對某些狀態-行動對應關係學得過於精確,失去泛化能力。

可能造成後果:遇到未看過的類似狀態時,Q 值估計嚴重偏差,學習表現不穩定。

防止過擬合的方法:

🛑 Early Stopping:監控驗證集表現,提早終止訓練;

🎯 正則化 (L2/L1):限制模型權重複雜度;

🎲 Dropout:隨機屏蔽神經元增加泛化能力;

🔄 經驗回放 (Replay Buffer):增加訓練資料多樣性;

📊 目標網路 (Target Network):穩定目標 Q 值,減少快速震盪。

________________________________________

✅ 七、小結與啟示

Q 函數表格無法應對高維狀態空間

用神經網路逼近 Q(s,a) 是深度強化學習的核心

搭配 TD 誤差更新、Replay Buffer 與 Target Network 可提升學習穩定性

對 AI 而言,Q 函數是價值觀;對人類而言,則是經驗與判斷的智慧!



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/24
深度強化學習結合神經網路與 RL,能處理高維感知與連續狀態,突破傳統表格法限制。DQN 引入經驗回放、目標網路與 ε-greedy,首次在 Atari 遊戲展現超越人類的成果。雖訓練需高資源且不穩定,但應用於自駕車、機器人、金融與智慧工廠前景廣闊。
2025/09/24
深度強化學習結合神經網路與 RL,能處理高維感知與連續狀態,突破傳統表格法限制。DQN 引入經驗回放、目標網路與 ε-greedy,首次在 Atari 遊戲展現超越人類的成果。雖訓練需高資源且不穩定,但應用於自駕車、機器人、金融與智慧工廠前景廣闊。
2025/09/24
時序差分方法透過 TD 誤差實現即時學習,不需完整模型即可邊互動邊更新。SARSA 保守穩定,適合高風險任務;Q-Learning 激進高效,收斂較快。TD(λ) 融合短期與長期回饋,加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。
2025/09/24
時序差分方法透過 TD 誤差實現即時學習,不需完整模型即可邊互動邊更新。SARSA 保守穩定,適合高風險任務;Q-Learning 激進高效,收斂較快。TD(λ) 融合短期與長期回饋,加速延遲獎勵學習。GridWorld 等實作能有效驗證策略差異與錯誤傳播。
2025/09/24
錯誤傳播透過 TD 誤差將延遲獎勵逐步回傳至先前狀態,幫助 AI 學會「從結果推前因」。Eligibility Traces 加速多步更新,提升學習效率。γ、α、λ 需調校以確保穩定。此機制廣泛應用於遊戲、自駕車、投資等延遲回報場景。
2025/09/24
錯誤傳播透過 TD 誤差將延遲獎勵逐步回傳至先前狀態,幫助 AI 學會「從結果推前因」。Eligibility Traces 加速多步更新,提升學習效率。γ、α、λ 需調校以確保穩定。此機制廣泛應用於遊戲、自駕車、投資等延遲回報場景。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 5中說當Context長度是d,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 5中說當Context長度是d,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News