第二部:《深度學習》83/100 📌獎勵函數與策略學習 💰 最大化總回報是最終目標!

更新 發佈閱讀 11 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

83/100 第九週:📌 深度強化學習(Deep Reinforcement Learning)🎮

83.Q-Learning 與策略網路 🧭 學會每一步的最佳選擇!

_______________________________________

🎯 單元導讀:

強化學習的核心問題之一是:在每一個狀態下,選哪個動作最能帶來長期利益?

為此,Q-Learning(行動值學習)是一種簡單又強大的方法,用來估算每個行為的「預期報酬」。

若再加上深度神經網路的表達能力,就能形成策略網路來做近似與決策。

本課將介紹:

✅ Q-Learning 的基本原理與公式

✅ 如何使用 Q 值做出最佳選擇

✅ 策略網路的概念與實現方法

✅ DQN 架構的概念鋪墊(為下一課做準備)

________________________________________

🧠 一、什麼是 Q-Learning?

➤ 定義:

Q-Learning 是一種強化學習方法,它的目標是學會一個「評分機制」,也就是學會在某個狀態下,做某個動作到底好不好。這個「評分」可以幫助我們在未來的情境中做出最佳決策。

這個評分叫做「Q值」,代表的是:「如果我在某個情況下採取某個動作,接下來一直做最好的選擇,最終我能拿到多少總報酬(獎勵)?」

Q-Learning 的特點是 off-policy,也就是說,它不需要一定要按照它想學的策略來做選擇,它可以一邊用一種策略來探索(比如 ε-greedy,偶爾亂選),同時學習另一種最好的策略。

它的學習方式是這樣的:

每次我們做了一個動作,觀察到了實際的獎勵,然後也看了一下「下個狀態中最值得做的動作會有多少價值」,再來我們就更新原本的Q值,把新的觀察結果加進去,讓整體的Q值越來越準確。

整體來說,我們每次都在做這四件事:

1. 觀察現在的情況(狀態)

2. 做出一個動作(根據目前已知的資訊,可能加上一點隨機探索)

3. 收到獎勵,並移動到新的狀態

4. 更新對這個狀態與動作的價值評估,讓這個估計越來越接近實際能拿到的報酬

最後,只要Q值學得夠準,我們就可以在任何情況下直接挑選 Q 值最高的動作,這就是最優策略。

________________________________________

✅ Q 值學習目標:更新規則

透過與環境互動,不斷更新 Q 值,使之趨近於最優:

Q-Learning 的經典數學公式:

Q(s,a)←Q(s,a)+α[R+γ⋅max Q(s′,a′)−Q(s,a)]

就是要透過不斷地跟環境互動,一點一滴地修正 Q 值,讓它越來越接近「最佳解」,也就是:

👉 每個情況下,做某個行動到底值不值得?

________________________________________

🔁 學習更新規則是這樣運作的:

1. Q 值先有一個初始估計(例如一開始全部設成 0)

2. 每當你在某個「狀態」下執行一個「動作」:

o 環境會回饋你一個「即時獎勵 R」

o 然後你會進入一個「新狀態」

o 你再看看在這個新狀態中,哪個動作的 Q 值最高

3. 將你剛剛的經驗,加入目前 Q 值的調整:

o 你原本的 Q 值會向著「即時獎勵 + 未來最大可能價值」的方向靠攏

________________________________________

🔧 每個參數的意思:

α(學習率):控制這次學習的「分量」,越大代表越信任新資料,越小代表越保守地更新

γ(折扣因子):決定你對「未來獎勵」有多重視,越接近 1 越看重長期利益,越接近 0 越看重眼前獎勵

R:你當下採取行動後,環境立刻給你的獎勵

s'(下一個狀態):你採取動作後,環境帶你到的新位置

max Q(s', a'):你在新位置中,能選的行動裡,哪一個是目前估計最有價值的

________________________________________

🧠 最終目標:

讓 Q 值學得越來越準確,最後你可以根據:

👉「每個狀態下 Q 值最大的那個動作」來選擇行動,這就是 最佳策略!

________________________________________

🧭 二、Q 值與最佳策略的關係

一旦學得 Q 函數,就可以定義一個貪婪策略(greedy policy):

π(s)=arg maxQ(s,a)

這代表在每個狀態 s 下,選擇能夠使預期總報酬最大的行動 a。

→ 總是選擇 Q 值最大的動作,即為最可能帶來最大總回報的策略。

________________________________________

🎯 三、策略網路(Policy Network)是什麼?

➤ 定義:

策略網路是用神經網路來近似策略函數 π(a∣s) 的一種模型結構,主要用在策略為主(Policy-based)的強化學習中。

但在 Q-Learning 中,我們常將神經網路用來估算 Q 值(不是策略),這就形成了:

✅ Q 網路(Q-Network):將狀態作為輸入,輸出所有動作的 Q 值

________________________________________

🧱 四、Q 網路與策略網路差異比較

Q 網路(Value-based)與策略網路(Policy-based)是兩種強化學習中不同的學習方式,各有適用場景與特點。

Q 網路的核心在於預測每個動作的「價值」,也就是 Q 值,讓代理人可以在每個狀態下挑選價值最高的動作來執行;代表性的應用包括 DQN、Double DQN 等,特別適合動作數量是固定且離散的情境,例如玩 Atari 遊戲。

相比之下,策略網路的目標是直接學出一個策略,輸出每個動作的「選擇機率分布」,也就是學會該怎麼「選擇」動作;代表方法如 REINFORCE、PPO、A2C,常用於連續動作空間,或當策略本身需具備隨機性(如對手無法預測)時特別有效。

簡單來說,Q 網路像是算分數選最好的,策略網路則是直接學會如何「選」的行為風格。

________________________________________

🤖 五、Q-Learning 應用流程簡述(for 離散動作)

1. 初始化 Q 表(或神經網路)

2. 在環境中觀察狀態 s,根據 epsilonϵ-greedy 策略選擇動作 a

3. 執行 a,觀察回饋 R 與下一狀態 s′

4. 用公式更新 Q 值

5. 重複多回合,直到收斂

________________________________________

📚 六、小結與學習啟示:

✅ Q-Learning 提供了「每一步選哪個動作最好」的數學依據

✅ 策略不需要顯式設計,只需估算 Q 值最大即可

✅ 策略網路則更適合處理「動作多元」或「決策需隨機」的任務

✅ 本課是進入 DQN(深度 Q-Learning) 的關鍵基礎!

________________________________________

💬 問題挑戰與思考:

1. Q-Learning 是否可以直接用在圖像輸入任務?若不行,怎麼改進?

🔍 解析:

傳統 Q-Learning 使用的是表格(table)方式儲存每個狀態與動作的 Q 值,這對於圖像這種高維連續輸入完全不適用,因為圖像的狀態空間是無窮大,無法一一列出。

✅ 改進方法:

引入 深度學習。使用一個**卷積神經網路(CNN)**來輸入圖像,並輸出每個動作的 Q 值,這就是 深度 Q 網路(DQN)。例如 DQN 在 Atari 遊戲中就是直接處理影像輸入的經典做法。

________________________________________

2. 如果環境是連續動作空間,還能用 Q-Learning 嗎?為什麼?

🔍 解析:

Q-Learning 假設可以對「所有動作」列出 Q 值並挑選最大值 max⁡aQ(s,a)

但在連續動作空間中,動作是無窮多的,無法枚舉或搜尋最大 Q 值,因此傳統 Q-Learning 不適用於這類任務。

✅ 解法:

使用 Actor-Critic 架構 或 DDPG(Deep Deterministic Policy Gradient) 等方法:

使用一個「Critic」網路來估計 Q 值

使用一個「Actor」網路來輸出連續動作

這樣可以跳過枚舉所有動作,讓 Q-Learning 概念能延伸到連續空間。

________________________________________

3. Q 值學習會不會震盪或不穩定?原因是什麼?(提示:bootstrap 誤差)

🔍 解析:

是的,Q-Learning 會有震盪與不穩定的情況。

主要原因來自於 bootstrap 誤差累積:

每次 Q 值更新不是用真實回報,而是用「自己預測的 Q 值」來做預測

這種「用估計值學估計值」的過程會造成誤差擴大,導致學習不穩

✅ 改進策略:

使用 固定目標網路(Target Network):暫時固定預測的 Q 值,減少更新震盪(DQN 做法)

使用 經驗回放(Replay Buffer):打亂資料順序,避免強烈相關性加劇震盪

使用 雙 Q-Learning:避免過度樂觀的 Q 值估計,提升穩定性





留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
16會員
384內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/22
獎勵函數是強化學習的核心,設計需對齊目標、平滑可學並避免作弊路徑。策略學習旨在找到最優行動以最大化長期回報,常見方法有策略梯度、Actor-Critic 與演化式學習。實務挑戰包括稀疏獎勵、探索與利用平衡及環境變動,需透過獎勵塑形、內在動機與即時調整來克服。
2025/09/22
獎勵函數是強化學習的核心,設計需對齊目標、平滑可學並避免作弊路徑。策略學習旨在找到最優行動以最大化長期回報,常見方法有策略梯度、Actor-Critic 與演化式學習。實務挑戰包括稀疏獎勵、探索與利用平衡及環境變動,需透過獎勵塑形、內在動機與即時調整來克服。
2025/09/22
強化學習透過智慧體與環境互動,依獎懲回饋學習策略,核心包含狀態、動作、回饋、策略與價值函數。常見方法有 Q-Learning、Policy Gradient、Actor-Critic 與 Model-based。應用涵蓋遊戲 AI、機器人、金融與推薦系統,適合解決動態決策與延遲回饋問題。
2025/09/22
強化學習透過智慧體與環境互動,依獎懲回饋學習策略,核心包含狀態、動作、回饋、策略與價值函數。常見方法有 Q-Learning、Policy Gradient、Actor-Critic 與 Model-based。應用涵蓋遊戲 AI、機器人、金融與推薦系統,適合解決動態決策與延遲回饋問題。
2025/09/22
自監督學習可讓模型從無標註資料中學習結構與語意。SimCLR 藉由資料增強與對比損失,訓練模型拉近正樣本、推遠負樣本,在 CIFAR-10 上展現有效特徵學習,結合少量微調即可完成分類等下游任務。
2025/09/22
自監督學習可讓模型從無標註資料中學習結構與語意。SimCLR 藉由資料增強與對比損失,訓練模型拉近正樣本、推遠負樣本,在 CIFAR-10 上展現有效特徵學習,結合少量微調即可完成分類等下游任務。
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News