第三部《強化學習》21/100 蒙地卡羅方法概述 🎲 累積經驗樣本估算期望！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/24 更新2025/09/24 發佈閱讀 9 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

21/100 第三週：📌 蒙地卡羅方法（Monte Carlo Methods）

21.蒙地卡羅方法概述 🎲 累積經驗樣本估算期望！

________________________________________

🎯 單元導讀：

在沒有環境模型的情況下，AI 如何學會哪些行為值得做、哪些該避免？

進入第三週，我們正式進入「無模型的強化學習時代」，其中最基礎的學習技術就是——蒙地卡羅方法（Monte Carlo Methods）。

它的核心精神是：

只要有足夠多的互動經驗，AI 就可以統計出哪些決策長期回報高！

這種基於經驗樣本的方式，讓強化學習真正可以在現實世界中發揮作用。

________________________________________

🧠 一、什麼是蒙地卡羅方法？

**蒙地卡羅方法（Monte Carlo Method）**是一種利用隨機模擬與統計平均來估計數學期望的技術。

在強化學習中，蒙地卡羅方法透過反覆執行當前策略 π 與環境互動，產生完整的 episode（即從起點走到終點的完整歷程）。

在每次 episode 中，累積並計算從某個狀態開始後的總報酬 Gₜ。接著，對該狀態多次出現時所累積的 Gₜ 進行平均，作為該狀態的價值估計 V(s)。隨著累積的樣本數增加，這種透過實際經驗平均的估計方式會逐漸逼近真實的期望報酬，適合用於模型未知且具明確終點的學習任務中。

📌 這個過程不依賴任何轉移機率或環境模型，是純經驗式的學習方式。

________________________________________

📦 二、強化學習中蒙地卡羅方法的要素

在強化學習中，**蒙地卡羅方法（Monte Carlo Method）**的核心要素包括：首先透過完整的 Episode（回合），即智能體從起點出發直到終點的一次完整互動歷程，來收集資料。

每次回合中，從某個時間點 t 開始計算到回合結束為止所累積的折扣報酬稱為 Gt（總報酬）。根據統計方式不同，分為 First-Visit MC（僅在每回合第一次造訪該狀態時計算 Gt）與 Every-Visit MC（每次遇到該狀態都記錄 Gt），兩者皆可有效估計狀態價值 V(s)，通常依任務特性選擇使用。這些設計讓蒙地卡羅方法特別適合用於有明確終點且不需要環境模型的學習情境。

________________________________________

🔁 三、蒙地卡羅估值流程圖

執行策略 π 產生 Episode

記錄每個狀態出現的 Gt

將所有 Gt 累積統計

更新 V(s) 為 Gt 平均

蒙地卡羅估值的流程從執行當前策略 π 開始，透過與環境互動產生完整的 Episode（一次完整的從起點到終點的經驗）。在這些回合中，每當某個狀態出現時，就記錄從該狀態開始直到回合結束所累積的報酬 Gt。隨著累積到越來越多的 Gt 資料，將所有觀測到的 Gt 進行統計累加，最後計算平均值，更新該狀態的價值函數 V(s)。隨著樣本數增加，V(s) 會逐漸逼近在該策略下的期望報酬。

________________________________________

🎮 四、生活與應用案例

蒙地卡羅方法因其透過完整回合模擬與累積經驗數據的特性，在多種應用領域中發揮重要價值。在賭場模擬中，可分析不同下注策略在長期下的預期獲利效果；在21點（Blackjack）遊戲中，透過反覆模擬讓 AI 學習最佳的抽牌與停牌時機；在學生學習歷程分析中，藉由累積學生在學習過程中的行為與成果數據，幫助制定最佳的教學介入與回饋策略；在互動式遊戲訓練中，透過大量模擬遊戲經驗，建立準確的報酬模型，進而優化決策策略。這些應用都充分展現出蒙地卡羅方法善於處理長期累積經驗並估計期望報酬的核心優勢。

________________________________________

📚 五、與動態規劃、TD 方法的比較

在強化學習中，動態規劃（DP）、**蒙地卡羅（MC）與時間差分（TD）**三種方法各有適用特性。動態規劃需要完整的環境模型 P(s'|s,a)，可在每一步即時更新，適合模型已知且狀態空間不大的情境。蒙地卡羅方法則不依賴模型，需等待整個 episode 結束後才能更新，因此適合有明確起點與終點的任務。雖然無法即時更新，但在模擬環境與策略評估上表現穩定且效果良好。時間差分方法同樣不需要模型，且可在每一步直接更新，特別適合連續互動的線上學習任務。三者各自發揮在不同的學習任務特性之中，構成強化學習的重要基礎工具組合。

________________________________________

🧪 六、經典演算法與模型介紹

蒙地卡羅方法各變形與應用說明

1️⃣ First-Visit MC（首次訪問蒙地卡羅）

• 🔧 應用範圍：模擬策略評估

• 🔎 特點：只在每個 episode 中，當某狀態第一次出現時統計 Gt。適合避免過度重複統計，尤其在有限樣本時減少偏差。

2️⃣ Every-Visit MC（每次訪問蒙地卡羅）

• 🔧 應用範圍：策略回報收斂分析

• 🔎 特點：每次該狀態出現時都記錄 Gt，統計樣本較多，收斂速度穩定且平滑，但在部分狀態頻繁重複出現時，需留意樣本偏重問題。

3️⃣ MC Control（蒙地卡羅控制）

• 🔧 應用範圍：尋找最優策略 π*

• 🔎 特點：結合 Epsilon-Greedy 策略進行探索與利用平衡，透過多次完整 episode 累積樣本，持續修正動作價值函數 Q(s,a)，最終收斂至最佳策略。