第三部《強化學習》28/100 Epsilon-Greedy 策略應用 🎯 加點隨機，避免陷入局部最優！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/24 更新2025/09/24 發佈閱讀 10 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

28/100 第三週：📌 蒙地卡羅方法（Monte Carlo Methods）

28.Epsilon-Greedy 策略應用 🎯 加點隨機，避免陷入局部最優！

_______________________________________

🎯 單元導讀：

在強化學習中，AI 常會遇到這個難題：

「到底要繼續做目前最好的行動（利用），還是試試看新的選項（探索）？」

這是強化學習裡的核心抉擇——探索 vs 利用（exploration vs exploitation）。

為了解決這個矛盾，我們引入了最簡單也最實用的策略：

✅ Epsilon-Greedy 策略：大部分時間做最好的行動，但偶爾隨機試一下別的。

這種「加點隨機」的智慧，讓 AI 不會卡在次優策略中無法自拔！

________________________________________

🧠 一、什麼是 Epsilon-Greedy 策略？

ε-Greedy 是一種帶有機率性探索的決策機制：

• 以 1−ε 的機率選擇目前 Q 值最高的動作（exploit）

• 以 ε 的機率從所有動作中隨機選一個（explore）

這樣能確保 AI 有機會接觸新行動，發掘潛在更優解。

________________________________________

📦 二、公式與範例

假設一個狀態下有 4 個動作，Q 值如下：

Q(s) = [5.0, 3.0, 2.0, 0.5]

若 ε = 0.1，則：

• 有 90% 機率選擇 Q 最大的動作（a = 0）

• 有 10% 機率隨機從 4 個動作中選一個（平均每個動作約 2.5% 機率被探索）

________________________________________

🔁 三、實作片段（Python）

python

import numpy as np

def epsilon_greedy(Q, state, n_actions, epsilon):

if np.random.rand() < epsilon:

return np.random.randint(n_actions) # 探索

else:

return np.argmax(Q[state]) # 利用

這段程式碼實作了ε-greedy 策略，用來平衡探索與利用。在每次決策時，先用 np.random.rand() 產生一個 0 到 1 之間的隨機數，若小於 epsilon，則執行「探索 (exploration)」，隨機選擇一個動作（使用 np.random.randint(n_actions)）；否則執行「利用 (exploitation)」，從 Q 表中選擇當前狀態下擁有最高 Q 值的動作（使用 np.argmax(Q[state])）。其中 Q 是紀錄每個 (state, action) 對應價值的表格，通常會用字典搭配 np.zeros() 動態擴充，例如：Q = defaultdict(lambda: np.zeros(n_actions))。這個方法常被應用在 Q-learning、蒙地卡羅控制等離線學習過程，讓 agent 既能利用已有知識，又能持續探索新路徑，避免過早陷入次優策略。

此方法在 MC Control、Q-learning、SARSA 等演算法中廣泛使用。

________________________________________

📊 四、ε 該如何設定？

ε-greedy 策略有多種設計方式。固定 ε（如 0.1）在整個學習過程中維持固定的探索率，實作簡單且穩定，但可能收斂較慢。隨時間遞減（如 ε = 1/t）則在初期保留大量探索，隨學習次數增加逐步專注利用，能提高學習效率，但需設計合理的遞減速度避免太快陷入次優解。ε-Greedy with decay 方式（如 ε ← ε × decay_rate，例如 0.995）則讓 ε 平滑地指數下降，是目前許多實務應用中最常見的做法，兼具穩定性與效率，讓 agent 在學習前期廣泛探索，後期能逐漸集中學習最佳策略。

________________________________________

🎮 五、生活中的例子

情境探索 vs 利用

餐廳選擇常去同一家（利用） vs 嘗試新店（探索）

投資策略一直用過去穩定策略 vs 投資新標的

學習方式固定讀書方法 vs 嘗試不同的學習工具（影片/群組討論）

📌 若只依賴舊經驗，可能錯失潛力更大的選項！

________________________________________

🧩 六、挑戰與反思任務

1️⃣ 若 ε 設定過大會有什麼風險？反之，太小又會怎樣？

• ε 過大（如接近 1）：

o 代表幾乎每次都在隨機探索，學習過程中很難累積穩定知識。

o 雖然可以避免卡在次優解，但學習效率低，收斂速度慢，尤其在後期可能一直在無意義的亂試。

• ε 過小（如接近 0）：

o 幾乎總是利用現有 Q 值，缺乏探索新策略的機會。

o 可能在早期錯誤估計時快速陷入次優解，之後很難跳脫。

• 理想平衡：

o 初期適當偏高，讓 agent 先認識環境；

o 後期適當降低，聚焦在最佳策略的穩定學習上。

________________________________________

2️⃣ 如何動態調整 ε，讓 AI 初期探索多、後期專注最優策略？

常見的動態調整方法：

ε 的動態調整方式有多種設計。線性遞減（如 ε = ε₀ - k·t）實現簡單直觀，適合入門實驗，但收斂可能不夠平滑。指數衰減（如 ε = ε₀ * exp(-k·t) 或 ε ← ε × decay_rate）讓探索比例平滑下降，是實務應用中最常見的穩定方法。

分段遞減則每過固定次數手動調降 ε，具備高度靈活性，方便依學習進度微調。自適應調整則根據 Q 值變動幅度或任務成功率自動調整 ε，是最智能且高效的方法，但需要額外設計監控與調整邏輯。選擇哪種方法，通常需依任務特性與實驗需求權衡。

這樣可避免 ε 下降至完全沒有探索，確保系統長期仍有微量嘗試新路徑的能力。

________________________________________

3️⃣ 嘗試用 ε-Greedy 改寫 Q-Learning 或 MC-Control 程式碼，觀察學習收斂的變化

改寫範例（以 Q-learning 為例）：

1. python

2. 複製編輯

3. import numpy as np

4. from collections import defaultdict

6. Q = defaultdict(lambda: np.zeros(n_actions))

8. def epsilon_greedy(Q, state, n_actions, epsilon):

9. if np.random.rand() < epsilon:

10. return np.random.randint(n_actions)

11. else:

12. return np.argmax(Q[state])

13.

14. for episode in range(num_episodes):

15. state = env.reset()

16. done = False

17. while not done:

18. action = epsilon_greedy(Q, state, n_actions, epsilon)

19. next_state, reward, done = env.step(action)

20. best_next_action = np.argmax(Q[next_state])

21. Q[state][action] += alpha * (reward + gamma * Q[next_state][best_next_action] - Q[state][action])

22. state = next_state

23.

24. epsilon = max(0.05, epsilon * 0.995) # 動態衰減

觀察重點：

• 若 ε 不衰減，長期仍會有許多無意義的探索；

• 適當衰減後，收斂速度加快，學到穩定的好策略；

• 完全不探索（ε = 0）則可能會早早卡死在次優解。

__________________________________

✅ 七、小結與啟示：

• Epsilon-Greedy 策略是強化學習中平衡探索與利用的關鍵技巧

• 透過簡單的「加點隨機」，讓 AI 避免陷入次優區域

• ε 的設定需根據任務性質、學習進度、資料分布做動態調整

• 是所有強化學習演算法的入門級策略選擇方法！

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

19會員

520內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/24

第三部《強化學習》27/100 蒙地卡羅控制策略 🔄 試著做、學著選，策略逐步改善！

蒙地卡羅控制透過完整回合試錯與回報平均更新 Q 值，並結合 ε-Greedy 改進策略，使 AI 能逐步逼近最優解。其優點是直觀、無需模型，適合模擬與探索初期，但在長回合或稀疏獎勵下學習效率低，常需與 TD 方法結合。

2025/09/24

第三部《強化學習》27/100 蒙地卡羅控制策略 🔄 試著做、學著選，策略逐步改善！

2025/09/24

第三部《強化學習》26/100 On-policy 與 Off-policy 比較 🧭 學自己的策略還是別人的？

On-policy 使用自身策略互動學習，穩健安全但效率較低；Off-policy 可用他人或歷史資料學習目標策略，效率高但可能不穩定。典型例子是 SARSA 與 Q-Learning，前者依實際行為更新，後者追求理想最優。兩者各有應用價值，實務常結合運用。

2025/09/24

第三部《強化學習》26/100 On-policy 與 Off-policy 比較 🧭 學自己的策略還是別人的？

2025/09/24

第三部《強化學習》25/100 採樣策略與重要性修正 🧮 現實與目標策略的權衡！

重要性修正是離策略學習的核心，透過加權方式將行為策略 μ 的樣本轉換為目標策略 π 的估值。普通方法雖無偏卻變異大，加權法則收斂更穩定。此技術能在僅有歷史資料或無法頻繁試驗的情境下，有效訓練與評估新策略。

2025/09/24

第三部《強化學習》25/100 採樣策略與重要性修正 🧮 現實與目標策略的權衡！

看更多

你可能也想看

李想 - 價值投資與形態學之思辯的沙龍

「笨啊你，唯一經得起長期考驗的賺錢之道，只有價值投資！」

書名 : 這才是價值投資：長期打敗大盤的贏家系統，從葛拉漢到巴菲特都推崇的選股策略作者: 全球頂尖策略分析大師詹姆斯•蒙蒂爾在多頭市場賺錢不稀奇，但遇到空頭市場呢？

#長期投資#多頭#價值投資

2024/07/24

李想 - 價值投資與形態學之思辯的沙龍

「笨啊你，唯一經得起長期考驗的賺錢之道，只有價值投資！」

#長期投資#多頭#價值投資

2024/07/24

真．選擇權策略師

終極降落傘起手式（四）

損益估值模型固然能幫助理解框架構成後的每日盈虧變化，但無法真正為策略定性定量，機動的策略調整更是讓策略產生了無窮的潛力。同學們可以這樣理解...【策略是有生命的】。

2024/07/14

2024/07/14

對沖就是一種避險方式，當一開始建立的部位已經不再是「低風險機會時」，就必須隨著目前趨勢建立期貨或選擇權部位，藉此鎖住獲利。使用對沖避險一定會比裸賣的策略獲取更少的利潤，但它可以有效控制虧損風險，防止帳戶瞬間承受巨大虧損。

2024/07/06

2024/07/06

《頂尖操盤手的養成計畫1》提供全面的交易指導，涵蓋交易金字塔模型、成長階段、自我認識、紀律、資金管理、風險控管和策略制定。書中強調心理建設、紀律和持續學習的重要性，並提供實用的停損和獲利原則，幫助交易者在市場中實現長期穩定的成功。

2024/07/04

2024/07/04

書中的投資重點為「順勢而為」。投資者是否能長期獲利，很大程度上取決於如何應對這種不確定性。資金管理策略是關鍵，貪婪與恐懼影響交易心理，而分散資產可以降低投資風險。

2024/05/08

2024/05/08

槓桿金融商品凱利公式當世界提供機會時,聰明人會下注因為他們擁有風報比經驗值的投資勝率至於其他時候,則不下注,就是這麼簡單凱利公式原則"少賭,大賭,不經常賭" 輸家則是"多賭,小賭,經常賭" ### 存股投資思維套用在凱莉公式原則進場時機跟資金分配 3年內發生100%

2024/04/24

2024/04/24

沒事讀點書-走進我的交易室(Dr. Alexander Elder)- 24.04.06

沒事讀點書-走進我的交易室(Dr. Alexander Elder)- 24.04.06 *成功的交易要靠三個M: 心(Mind)、法(Method)、錢(Money)。 *方法(Method)，基本分析與技術分析: --基本分析，對於長線交易者、跟隨長達幾個月到幾年的大趨勢，基本分析看漲，就

2024/04/08

每日發車

沒事讀點書-走進我的交易室(Dr. Alexander Elder)- 24.04.06

2024/04/08

Only Two 翁立兔的沙龍

Only 投資心法 (二) 標的該選什麼？寫給那些錢多膽小怕狗咬的人

作者 Only 透過公式，想要解釋正確的投資哲學心法，標的的重要性，選到合理的標的，獲利是正常的，要有可觀的獲利，就是要大膽加認命，大膽的進入股市，然後認命自己只要平均的回報，傻傻的投資SPY即可！

#投資心法#股票#債卷

2024/03/21

Only Two 翁立兔的沙龍

Only 投資心法 (二) 標的該選什麼？寫給那些錢多膽小怕狗咬的人

#投資心法#股票#債卷

2024/03/21

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News