AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》
87/100 第九週:📌 深度強化學習(Deep Reinforcement Learning)🎮
87.AlphaGo 的成功秘密 ♟ 蒙地卡羅樹搜尋 + 策略網路完美配合!
_____________________________________
🎯 單元導讀:
2016 年,AlphaGo 擊敗圍棋世界冠軍李世乭,震驚全球。
它並不是靠暴力計算,而是結合了:
✅ 蒙地卡羅樹搜尋(MCTS) + 策略網路 + 價值網路
→ 這套架構改寫了人工智慧的實力邊界。
本課將帶你解析 AlphaGo 成功的技術核心,並說明它如何啟發後來的 AlphaZero、MuZero 與整個強化學習世界。
________________________________________
♟ 一、AlphaGo 的三大技術核心
模組名稱 功能
策略網路(Policy Network) 預測「下一步棋該怎麼下」 → 提供動作建議與先剪枝
價值網路(Value Network) 預測「當前局面誰有利」 → 加速評估,減少模擬次數
蒙地卡羅樹搜尋(MCTS) 根據策略與價值反覆模擬多條路徑,選出最強落子方案
________________________________________
📌 工作流程簡述:
當前棋局 S →
→ 策略網路 π(s) 提供建議動作 a₁, a₂, ...
→ MCTS 根據 π(s) 建樹並模擬
→ 使用價值網路 V(s) 評估每個局面
→ 綜合模擬結果選出最優動作 a*
→ 落子、進入下一輪
在每一步思考循環中,系統先讀入當前棋局 S,讓「策略網路」 π(s) 為所有合法着法產生先驗機率分布,指出哪些動作 a₁、a₂ … 較值得探索;蒙地卡羅樹搜尋(MCTS)便以這些機率為「指北針」擴展搜尋樹,對各條分支反覆模擬對弈。
當模擬在某個節點終止時,不再靠隨機對局估分,而是交給「價值網路」 V(s) 直接預測該局面的勝率,這大幅降低樣本雜訊並加速評估。
MCTS 逐步回傳這些價值評分,結合節點訪問次數(表示探索深度)與策略先驗,更新每個動作的期望收益。最終,演算法以訪問次數最多(或最高平均價值)的分支對應之動作 a* 作為「實戰最優手」;機器落子後,棋盤更新為下一個 S′,整個流程於新局面上再次啟動,形成持續迭代、邊下邊思考的閉環。
________________________________________
🌳 二、蒙地卡羅樹搜尋(Monte Carlo Tree Search, MCTS)
MCTS 是一種基於隨機模擬與統計優化的搜尋方法,分為四個階段:
階段 說明
1️⃣ 選擇 從根節點開始,根據 UCB 等原則向下選擇節點
2️⃣ 擴展 對未擴展節點產生新的子節點
3️⃣ 模擬 從新節點隨機模擬一局對弈到底(或用價值網路估值)
4️⃣ 回傳 根據模擬結果更新所有經過節點的勝率與選擇次數
蒙地卡羅樹搜尋(MCTS)從「選擇」階段出發:演算法自根節點沿着已擴展的路徑,依據 UCB 等探索-利用平衡策略挑選子節點;到達尚未完全展開的節點後進入「擴展」階段,為其加入一個新子節點以代表未探索的動作;隨即在「模擬」階段自該子節點起以隨機着法(或以價值網路快速估分)一路模擬對弈至終局,獲得勝負或價值評分;最後在「回傳」階段將模擬結果沿途回傳,累加每個經過節點的勝利次數並更新訪問計數,使樹中統計逐漸收斂,從而不斷提高對每個動作期望收益的估計精度。
✅ AlphaGo 使用神經網路取代隨機模擬,提升精度與效率
________________________________________
🧠 三、策略網路與價值網路的架構(簡化版)
策略網路:
• 輸入:棋盤狀態
• 輸出:所有合法落子位置的機率分布
• 架構:CNN(卷積神經網路)+ Softmax
價值網路:
• 輸入:棋盤狀態
• 輸出:目前對弈結果的勝率估計(0~1)
• 架構:CNN + FC + Sigmoid(或 tanh)
________________________________________
🚀 四、AlphaGo 的訓練流程
1️⃣ 人類對弈資料 → 監督式訓練策略網路
2️⃣ 自我對弈資料 → 增強策略網路 & 訓練價值網路
3️⃣ 強化學習:使用 MCTS + 策略網路自我對弈數百萬局
4️⃣ 持續更新網路 → 收斂成強大對弈策略
________________________________________
🧬 五、AlphaGo 啟發的後續發展
自 AlphaGo 起,DeepMind 逐步把「策略+價值網路 × MCTS」的框架推向更純粹與更通用:
首先,AlphaGo Zero 徹底捨棄人類棋譜,只靠自我對弈與強化學習,就用更精簡的單網路結構在短時間內超越原版 AlphaGo;接著,AlphaZero 把同一套「從零自學」方法擴展到國際象棋與日本將棋,證明這種結合策略–價值網路與搜尋的算法不受遊戲規則限制、能作為通用棋類 AI;再往前。
MuZero 甚至不用事先知道環境的確切轉移函數,它透過內部學到的隱式動態模型,在仍舊搭配 MCTS 的情況下,同樣能在 Atari、多步棋類等領域取得頂尖表現,顯示出將模型學習、規則推理與搜尋融合的潛力,為無明確規則或高維動態環境的強化學習打開新局。
________________________________________
📚 六、小結與啟示
✅ AlphaGo 的核心在於「決策搜尋 + 神經網路估值」的結合
✅ 使用 人類經驗 → 自我對弈 → 強化學習 多階段訓練
✅ 啟發整個深度強化學習領域往 模型融合、通用策略學習 方向發展
✅ 是「策略與規劃結合」的 AI 創新典範
________________________________________
💬 問題挑戰與思考:
1️⃣ 為什麼光靠策略網路不夠,需要 MCTS 來輔助決策?
雖然策略網路能快速預測當下最好的動作,但它仍然有幾個限制:
• 不保證全局最優:策略網路是透過大量資料學習來預測動作機率,容易只學到「局部最優」的模式,無法長期規劃。
• 對不熟悉局面表現不穩:遇到新型局勢或對手策略時,策略網路可能無法給出合理動作。
• 探索 vs 利用難以平衡:僅依賴策略網路容易一直重複已知好招,缺乏新的策略探索。
💡 MCTS 補強策略網路的地方:
• 藉由模擬與回傳,從策略網路提供的初步建議出發,不斷修正與驗證其價值。
• 能夠深入評估多步未來的局勢,提升長期規劃能力。
• 結合 UCB (Upper Confidence Bound) 機制實現「探索」與「利用」的平衡。
👉 兩者結合形成強大組合:
策略網路提供初始引導(Prior),MCTS 負責從這些建議中擴展與驗證(Search & Refine)。
________________________________________
2️⃣ 若應用到非遊戲問題(如醫療或物流),MCTS 還能適用嗎?
是的,MCTS 在非遊戲問題中也能適用,尤其是涉及決策樹與高不確定性的領域。但需要條件與調整:
🔎 適用前提:
• 問題可建模為序列決策(Sequential Decision Making)
• 有一個模擬器或模型來預測動作結果
• 可明確定義回饋/效益(reward)
✅ 典型應用領域:
• 醫療決策:病患治療路徑規劃(模擬不同療法效果)
• 物流路徑規劃:多階段配送最佳化、倉儲策略優化
• 自動控制:機器人操作流程、製造流程決策
• 對話系統:生成多輪對話策略樹以優化互動效果
📌 不同於遊戲,這些領域的 MCTS 可能要搭配學習式模型(如 Value Network) 來估計回報,並進行樣本效率提升(例如 MuZero)。
________________________________________
3️⃣ 如何避免策略網路過度模仿人類,而限制了創新對弈風格?
這是 AlphaGo Zero 相對 AlphaGo 的一大進步。AlphaGo 初期依賴人類棋譜訓練,雖然快速達成基本實力,但限制了創新性。
🧠 避免過度模仿的方式:
• 自我對弈訓練(Self-play):如 AlphaGo Zero 完全從零自我訓練,突破人類既有風格。
• 強化學習 (Reinforcement Learning):讓 AI 在勝負的激勵下學會最有效策略,而不是模仿人類棋譜。
• MCTS 促進策略多樣性:在搜尋中評估多路徑,避免只走高機率動作,實現更多嘗試與變異。
• 引入探索機制:像 Dirichlet 噪聲、溫度參數等技術,鼓勵模型在早期訓練階段多元探索。
🔁 總結:
要產生創新的對弈風格,需減少對人類知識的依賴,讓模型從探索與自我驗證中自然產生策略,而不是只靠模仿。