AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
21/100 第三週:📌 蒙地卡羅方法(Monte Carlo Methods)
21.蒙地卡羅方法概述 🎲 累積經驗樣本估算期望!
________________________________________
🎯 單元導讀:
在沒有環境模型的情況下,AI 如何學會哪些行為值得做、哪些該避免?
進入第三週,我們正式進入「無模型的強化學習時代」,其中最基礎的學習技術就是——蒙地卡羅方法(Monte Carlo Methods)。
它的核心精神是:
只要有足夠多的互動經驗,AI 就可以統計出哪些決策長期回報高!
這種基於經驗樣本的方式,讓強化學習真正可以在現實世界中發揮作用。
________________________________________
🧠 一、什麼是蒙地卡羅方法?
**蒙地卡羅方法(Monte Carlo Method)**是一種利用隨機模擬與統計平均來估計數學期望的技術。
在強化學習中,蒙地卡羅方法透過反覆執行當前策略 π 與環境互動,產生完整的 episode(即從起點走到終點的完整歷程)。
在每次 episode 中,累積並計算從某個狀態開始後的總報酬 Gₜ。接著,對該狀態多次出現時所累積的 Gₜ 進行平均,作為該狀態的價值估計 V(s)。隨著累積的樣本數增加,這種透過實際經驗平均的估計方式會逐漸逼近真實的期望報酬,適合用於模型未知且具明確終點的學習任務中。
📌 這個過程不依賴任何轉移機率或環境模型,是純經驗式的學習方式。
________________________________________
📦 二、強化學習中蒙地卡羅方法的要素
在強化學習中,**蒙地卡羅方法(Monte Carlo Method)**的核心要素包括:首先透過完整的 Episode(回合),即智能體從起點出發直到終點的一次完整互動歷程,來收集資料。
每次回合中,從某個時間點 t 開始計算到回合結束為止所累積的折扣報酬稱為 Gt(總報酬)。根據統計方式不同,分為 First-Visit MC(僅在每回合第一次造訪該狀態時計算 Gt)與 Every-Visit MC(每次遇到該狀態都記錄 Gt),兩者皆可有效估計狀態價值 V(s),通常依任務特性選擇使用。這些設計讓蒙地卡羅方法特別適合用於有明確終點且不需要環境模型的學習情境。
________________________________________
🔁 三、蒙地卡羅估值流程圖
執行策略 π 產生 Episode
|
v
記錄每個狀態出現的 Gt
|
v
將所有 Gt 累積統計
|
v
更新 V(s) 為 Gt 平均
蒙地卡羅估值的流程從執行當前策略 π 開始,透過與環境互動產生完整的 Episode(一次完整的從起點到終點的經驗)。在這些回合中,每當某個狀態出現時,就記錄從該狀態開始直到回合結束所累積的報酬 Gt。隨著累積到越來越多的 Gt 資料,將所有觀測到的 Gt 進行統計累加,最後計算平均值,更新該狀態的價值函數 V(s)。隨著樣本數增加,V(s) 會逐漸逼近在該策略下的期望報酬。
________________________________________
🎮 四、生活與應用案例
蒙地卡羅方法因其透過完整回合模擬與累積經驗數據的特性,在多種應用領域中發揮重要價值。在賭場模擬中,可分析不同下注策略在長期下的預期獲利效果;在21點(Blackjack)遊戲中,透過反覆模擬讓 AI 學習最佳的抽牌與停牌時機;在學生學習歷程分析中,藉由累積學生在學習過程中的行為與成果數據,幫助制定最佳的教學介入與回饋策略;在互動式遊戲訓練中,透過大量模擬遊戲經驗,建立準確的報酬模型,進而優化決策策略。這些應用都充分展現出蒙地卡羅方法善於處理長期累積經驗並估計期望報酬的核心優勢。
________________________________________
📚 五、與動態規劃、TD 方法的比較
在強化學習中,動態規劃(DP)、**蒙地卡羅(MC)與時間差分(TD)**三種方法各有適用特性。動態規劃需要完整的環境模型 P(s'|s,a),可在每一步即時更新,適合模型已知且狀態空間不大的情境。蒙地卡羅方法則不依賴模型,需等待整個 episode 結束後才能更新,因此適合有明確起點與終點的任務。雖然無法即時更新,但在模擬環境與策略評估上表現穩定且效果良好。時間差分方法同樣不需要模型,且可在每一步直接更新,特別適合連續互動的線上學習任務。三者各自發揮在不同的學習任務特性之中,構成強化學習的重要基礎工具組合。
________________________________________
🧪 六、經典演算法與模型介紹
蒙地卡羅方法各變形與應用說明
1️⃣ First-Visit MC(首次訪問蒙地卡羅)
• 🔧 應用範圍:模擬策略評估
• 🔎 特點:只在每個 episode 中,當某狀態第一次出現時統計 Gt。適合避免過度重複統計,尤其在有限樣本時減少偏差。
2️⃣ Every-Visit MC(每次訪問蒙地卡羅)
• 🔧 應用範圍:策略回報收斂分析
• 🔎 特點:每次該狀態出現時都記錄 Gt,統計樣本較多,收斂速度穩定且平滑,但在部分狀態頻繁重複出現時,需留意樣本偏重問題。
3️⃣ MC Control(蒙地卡羅控制)
• 🔧 應用範圍:尋找最優策略 π*
• 🔎 特點:結合 Epsilon-Greedy 策略進行探索與利用平衡,透過多次完整 episode 累積樣本,持續修正動作價值函數 Q(s,a),最終收斂至最佳策略。
4️⃣ MC with Exploring Starts(帶探索起始的蒙地卡羅)
• 🔧 應用範圍:解決策略探索不足
• 🔎 特點:強制每種狀態-動作對在初始訓練階段都被探索至少一次,避免早期樣本偏誤導致探索盲區,提升整體策略品質。
________________________________________
🧩 七、問題挑戰與反思任務:
1️⃣ 請舉一個你生活中可以用「蒙地卡羅方法」統計最優策略的場景?
例子:每天中午選擇去哪一家餐廳吃午餐。
不同餐廳的等待時間、用餐滿意度、交通時間可能每天都有變動。可以透過累積多次實際用餐的經驗(Episode),統計每次的整體滿意程度(例如綜合時間成本、口味、價錢與排隊長度),並將各餐廳的平均報酬 Gt 做統計,最終找出整體期望最高的最佳用餐選擇。這樣的「反覆經驗平均」正是蒙地卡羅方法的典型應用。
2️⃣ 如果一個任務沒有明確終點(例如股市交易),你認為 MC 方法還適合嗎?為什麼?
回答:不適合。
蒙地卡羅方法的核心假設之一是每次 Episode 需有明確終點,才能計算完整的 Gt 累積報酬。像股市這類連續、無明確終點的任務,使用 MC 會遇到以下困難:
Episode 不易定義(何時算結束?)
Gt 無法完整統計(無自然收斂)
長期未實現收益使統計偏差嚴重
因此,像股市交易這種連續型任務,通常會改用時間差分(TD)方法或深度強化學習來即時更新學習效果,更能處理無終點與隨時變動的狀況。
3️⃣ 相較於動態規劃,MC 方法在哪些方面更適合實際應用?
回答:
模型未知時更實用:動態規劃需完整的環境轉移模型 P(s'|s,a),現實中往往無法獲得完整模型;MC 只需與環境互動產生經驗即可學習。
不需完整數學建模:尤其在複雜、高維度或不確定性高的實際環境(如遊戲、模擬、商業決策)中,MC 較易落地實作。
適合可重複模擬的系統:如遊戲訓練、賭場模擬、飛行模擬器、金融回測等,都可不斷累積完整 Episode 進行平均估計。
________________________________________
✅ 八、小結與啟示:
• 蒙地卡羅方法是一種純靠經驗學習價值的強化學習技術
• 它不需要任何模型,只需反覆執行策略並統計報酬
• 能廣泛應用於模擬環境、自主遊戲訓練、金融決策等領域
• 是進入 Q-Learning、策略梯度等進階演算法前的重要過渡階段!









