深入探討 Q-learning 框架

更新於 發佈於 閱讀時間約 8 分鐘

這次我們就來深入探討 Q-learning 框架,它是強化學習 (Reinforcement Learning, RL) 中一個非常經典且重要的演算法。

Q-learning 框架:讓智能體「邊做邊學」的魔術!✨

Q-learning 是一種 免模型 (model-free) 的強化學習演算法,這表示它不需要事先知道環境的運作方式(比如每個動作會將智能體帶到哪個狀態,或是會獲得多少獎勵)。它透過不斷的試錯 (trial-and-error),直接學習在特定狀態下採取哪個動作會獲得最大的長期獎勵。

想像一下,你在一座漆黑的迷宮裡尋寶。你不知道迷宮的地圖,也不知道寶藏在哪裡。你會怎麼做?你會到處走走、碰碰運氣,如果走到死路就退回來,如果發現寶藏就記下來。Q-learning 的核心概念就是這樣。

1. 核心概念:Q 表 (Q-table) 與 Q 值 (Q-value)

Q-learning 的核心是建立一個Q 表 (Q-table)。這張表就像是智能體的「經驗筆記本」,裡面記錄了每個狀態 (State) 下,執行每個動作 (Action) 所能獲得的預期累積獎勵 (Expected Cumulative Reward),這個值就叫做 Q 值 (Q-value)。

* Q(s, a):表示在狀態 s 下,執行動作 a 的「品質」或「價值」。這個值越高,表示在該狀態下執行這個動作越好。

初始時,Q 表裡的 Q 值通常都會被初始化為零,表示智能體一開始對環境一無所知。

2. Q-learning 的學習過程:探索與利用的平衡 ⚖️

Q-learning 的學習是一個迭代的過程,智能體會不斷與環境互動,更新 Q 值。主要包含以下步驟:

* 初始化 Q 表:將所有狀態-動作對應的 Q 值設為 0 或一個小的隨機值。

* 設定學習參數:

* 學習率 (Learning Rate, \alpha):決定每次更新時,新資訊會影響舊 Q 值多少。\alpha 介於 0 到 1 之間。\alpha 越大,學習越快,但也可能導致不穩定。

* 折扣因子 (Discount Factor, \gamma):衡量未來獎勵的重要性。\gamma 介於 0 到 1 之間。\gamma 越接近 0,智能體越看重眼前即時的獎勵;\gamma 越接近 1,則越看重長期累積的獎勵。

* 探索率 (Exploration Rate, \epsilon):控制智能體是探索 (Exploration) 新動作還是利用 (Exploitation) 已知最佳動作的平衡。通常會隨時間遞減。

* 探索:智能體隨機選擇動作,目的是發現環境中潛在的高獎勵路徑。

* 利用:智能體選擇 Q 值最高的動作,目的是最大化當前已知的獎勵。

* 迴圈學習 (通常以回合 Episode 為單位):

* 回合開始:智能體處於一個初始狀態 s。

* 選擇動作:

* 智能體根據 \epsilon 的機率,決定是隨機選擇一個動作(探索),還是從 Q 表中選擇當前狀態 s 下 Q 值最高的動作(利用)。這種策略稱為 \epsilon-貪婪策略 (\epsilon-greedy policy)。

* 執行動作:智能體執行選定的動作 a。

* 觀察結果:環境返回一個即時獎勵 r,並將智能體帶到一個新的狀態 s'。

* 更新 Q 值:這是 Q-learning 的核心!智能體使用著名的 貝爾曼方程 (Bellman Equation) 來更新 Q(s, a) 的值:

Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]

我們來拆解這個公式:

* Q(s, a):當前狀態 s 下,動作 a 的舊 Q 值。

* r:執行動作 a 後獲得的即時獎勵。

* $\gamma \max_{a'} Q(s', a')$:在新的狀態 s' 下,所有可能動作中,能獲得的最大未來折扣 Q 值。這代表了智能體對未來「最佳」結果的預期。

* $(r + \gamma \max_{a'} Q(s', a'))$:這是我們「目標」的 Q 值,可以看作是從經驗中學到的新的、更好的估計。

* $Q(s, a)$:舊的 Q 值。

* $(r + \gamma \max_{a'} Q(s', a') - Q(s, a))$:這是時間差誤差 (Temporal Difference Error, TD Error),表示了新估計與舊估計之間的差異。如果這個誤差大,表示智能體學到了很多新的東西,Q 值更新的幅度就大。

* $\alpha$:學習率,控制了這個誤差會對 Q 值造成多大的影響。

* 狀態更新:將當前狀態 s 設定為新的狀態 s',然後重複循環,直到達到終點狀態或達到最大步數。

3. Q-learning 的優勢與局限

優勢:

* 免模型 (Model-Free):不需要知道環境的內部運作機制,可以直接從互動中學習。

* 能找到最優策略:在有限的馬可夫決策過程 (MDP) 中,如果智能體有足夠的探索時間,Q-learning 可以收斂到最優策略。

* 簡單易懂:概念相對直觀,實現起來也比較容易。

局限:

* 狀態空間爆炸:當狀態空間非常大時(例如,圖像像素點、複雜的遊戲局面),Q 表會變得異常龐大,難以儲存和更新。這就是 「維度災難」(Curse of Dimensionality)。

* 無法處理連續狀態/動作空間:Q 表需要離散的狀態和動作。如果環境是連續的(例如,機器人手臂的關節角度),Q-learning 就無法直接應用。

4. 從 Q-learning 到深度 Q 網路 (DQN)

為了解決 Q-learning 在處理大規模、連續狀態空間時的局限,深度學習 (Deep Learning) 被引入,形成了 深度 Q 網路 (Deep Q-Network, DQN)。

DQN 的核心思想就是用一個深度神經網路 (Deep Neural Network) 來取代 Q 表,近似 (approximate) Q 函數。這樣就不需要儲存巨大的表格,而是透過神經網路的參數來表示 Q 值。這使得 DRL 能夠處理更複雜的任務,比如直接從遊戲畫面中學習玩遊戲(這就是 AlphaGo 等的基礎)。

結語

Q-learning 作為強化學習的基石,為我們理解智能體如何透過與環境互動來學習最佳決策提供了清晰的框架。即使它有自身的局限,但它所奠定的「價值學習」基礎,仍然是現代 DRL 演算法不可或缺的一部分。

#Qlearning #強化學習 #ReinforcementLearning #Qtable #AI基礎 #機器學習 #BellmanEquation #試錯學習

留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
82內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/07/22
讓我們深入探討 深度強化學習 (DRL) 模型的數理與原理,這會稍微燒腦一點,但保證讓你對 DRL 的核心運作有更透徹的理解。 還記得我們之前提到的,DRL 結合了「深度學習」和「強化學習」嗎?它的強大之處,就在於能讓機器透過不斷與環境互動、從「經驗」中學習,進而優化決策。這背後的數理支撐,主要來
2025/07/22
讓我們深入探討 深度強化學習 (DRL) 模型的數理與原理,這會稍微燒腦一點,但保證讓你對 DRL 的核心運作有更透徹的理解。 還記得我們之前提到的,DRL 結合了「深度學習」和「強化學習」嗎?它的強大之處,就在於能讓機器透過不斷與環境互動、從「經驗」中學習,進而優化決策。這背後的數理支撐,主要來
2025/07/22
DRL,也就是深度強化學習 (Deep Reinforcement Learning),是近年來人工智慧領域最火熱的技術之一。🔥 它結合了深度學習的強大感知能力和強化學習的決策學習能力,讓機器可以像人類一樣,透過不斷的「嘗試錯誤」來學習、進而做出最棒的決策。
2025/07/22
DRL,也就是深度強化學習 (Deep Reinforcement Learning),是近年來人工智慧領域最火熱的技術之一。🔥 它結合了深度學習的強大感知能力和強化學習的決策學習能力,讓機器可以像人類一樣,透過不斷的「嘗試錯誤」來學習、進而做出最棒的決策。
2025/07/21
我將從更具學術性的角度,深入探討 Transformer 模型的數學原理,並展示其在不同領域的應用範例。 以較淺顯易懂的方式介紹之後,我們將揭開 Transformer 模型內部最核心的運作機制。本文主要基於原論文《Attention Is All You Need》(Vaswani et al.
2025/07/21
我將從更具學術性的角度,深入探討 Transformer 模型的數學原理,並展示其在不同領域的應用範例。 以較淺顯易懂的方式介紹之後,我們將揭開 Transformer 模型內部最核心的運作機制。本文主要基於原論文《Attention Is All You Need》(Vaswani et al.
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News