第二部：《深度學習》87/100 📌AlphaGo 的成功秘密 ♟ 蒙地卡羅樹搜尋 + 策略網路完美配合！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/22 更新2025/09/22 發佈閱讀 10 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

87/100 第九週：📌 深度強化學習（Deep Reinforcement Learning）🎮

87.AlphaGo 的成功秘密 ♟ 蒙地卡羅樹搜尋 + 策略網路完美配合！

_____________________________________

🎯 單元導讀：

2016 年，AlphaGo 擊敗圍棋世界冠軍李世乭，震驚全球。

它並不是靠暴力計算，而是結合了：

✅ 蒙地卡羅樹搜尋（MCTS） + 策略網路 + 價值網路

→ 這套架構改寫了人工智慧的實力邊界。

本課將帶你解析 AlphaGo 成功的技術核心，並說明它如何啟發後來的 AlphaZero、MuZero 與整個強化學習世界。

________________________________________

♟ 一、AlphaGo 的三大技術核心

模組名稱功能

策略網路（Policy Network）預測「下一步棋該怎麼下」 → 提供動作建議與先剪枝

價值網路（Value Network）預測「當前局面誰有利」 → 加速評估，減少模擬次數

蒙地卡羅樹搜尋（MCTS）根據策略與價值反覆模擬多條路徑，選出最強落子方案

________________________________________

📌 工作流程簡述：

當前棋局 S →

→ 策略網路 π(s) 提供建議動作 a₁, a₂, ...

→ MCTS 根據 π(s) 建樹並模擬

→ 使用價值網路 V(s) 評估每個局面

→ 綜合模擬結果選出最優動作 a*

→ 落子、進入下一輪

在每一步思考循環中，系統先讀入當前棋局 S，讓「策略網路」 π(s) 為所有合法着法產生先驗機率分布，指出哪些動作 a₁、a₂ … 較值得探索；蒙地卡羅樹搜尋（MCTS）便以這些機率為「指北針」擴展搜尋樹，對各條分支反覆模擬對弈。

當模擬在某個節點終止時，不再靠隨機對局估分，而是交給「價值網路」 V(s) 直接預測該局面的勝率，這大幅降低樣本雜訊並加速評估。

MCTS 逐步回傳這些價值評分，結合節點訪問次數（表示探索深度）與策略先驗，更新每個動作的期望收益。最終，演算法以訪問次數最多（或最高平均價值）的分支對應之動作 a* 作為「實戰最優手」；機器落子後，棋盤更新為下一個 S′，整個流程於新局面上再次啟動，形成持續迭代、邊下邊思考的閉環。

________________________________________

🌳 二、蒙地卡羅樹搜尋（Monte Carlo Tree Search, MCTS）

MCTS 是一種基於隨機模擬與統計優化的搜尋方法，分為四個階段：

階段說明

1️⃣ 選擇從根節點開始，根據 UCB 等原則向下選擇節點

2️⃣ 擴展對未擴展節點產生新的子節點

3️⃣ 模擬從新節點隨機模擬一局對弈到底（或用價值網路估值）

4️⃣ 回傳根據模擬結果更新所有經過節點的勝率與選擇次數

蒙地卡羅樹搜尋（MCTS）從「選擇」階段出發：演算法自根節點沿着已擴展的路徑，依據 UCB 等探索-利用平衡策略挑選子節點；到達尚未完全展開的節點後進入「擴展」階段，為其加入一個新子節點以代表未探索的動作；隨即在「模擬」階段自該子節點起以隨機着法（或以價值網路快速估分）一路模擬對弈至終局，獲得勝負或價值評分；最後在「回傳」階段將模擬結果沿途回傳，累加每個經過節點的勝利次數並更新訪問計數，使樹中統計逐漸收斂，從而不斷提高對每個動作期望收益的估計精度。

✅ AlphaGo 使用神經網路取代隨機模擬，提升精度與效率

________________________________________

🧠 三、策略網路與價值網路的架構（簡化版）

策略網路：

• 輸入：棋盤狀態

• 輸出：所有合法落子位置的機率分布

• 架構：CNN（卷積神經網路）+ Softmax

價值網路：

• 輸入：棋盤狀態

• 輸出：目前對弈結果的勝率估計（0~1）

• 架構：CNN + FC + Sigmoid（或 tanh）

________________________________________

🚀 四、AlphaGo 的訓練流程

1️⃣ 人類對弈資料 → 監督式訓練策略網路

2️⃣ 自我對弈資料 → 增強策略網路 & 訓練價值網路

3️⃣ 強化學習：使用 MCTS + 策略網路自我對弈數百萬局

4️⃣ 持續更新網路 → 收斂成強大對弈策略

________________________________________

🧬 五、AlphaGo 啟發的後續發展

自 AlphaGo 起，DeepMind 逐步把「策略＋價值網路 × MCTS」的框架推向更純粹與更通用：

首先，AlphaGo Zero 徹底捨棄人類棋譜，只靠自我對弈與強化學習，就用更精簡的單網路結構在短時間內超越原版 AlphaGo；接著，AlphaZero 把同一套「從零自學」方法擴展到國際象棋與日本將棋，證明這種結合策略–價值網路與搜尋的算法不受遊戲規則限制、能作為通用棋類 AI；再往前。

MuZero 甚至不用事先知道環境的確切轉移函數，它透過內部學到的隱式動態模型，在仍舊搭配 MCTS 的情況下，同樣能在 Atari、多步棋類等領域取得頂尖表現，顯示出將模型學習、規則推理與搜尋融合的潛力，為無明確規則或高維動態環境的強化學習打開新局。

________________________________________

📚 六、小結與啟示

✅ AlphaGo 的核心在於「決策搜尋 + 神經網路估值」的結合

✅ 使用人類經驗 → 自我對弈 → 強化學習多階段訓練

✅ 啟發整個深度強化學習領域往模型融合、通用策略學習方向發展

✅ 是「策略與規劃結合」的 AI 創新典範

________________________________________

💬 問題挑戰與思考：

1️⃣ 為什麼光靠策略網路不夠，需要 MCTS 來輔助決策？

雖然策略網路能快速預測當下最好的動作，但它仍然有幾個限制：

• 不保證全局最優：策略網路是透過大量資料學習來預測動作機率，容易只學到「局部最優」的模式，無法長期規劃。

• 對不熟悉局面表現不穩：遇到新型局勢或對手策略時，策略網路可能無法給出合理動作。

• 探索 vs 利用難以平衡：僅依賴策略網路容易一直重複已知好招，缺乏新的策略探索。

💡 MCTS 補強策略網路的地方：

• 藉由模擬與回傳，從策略網路提供的初步建議出發，不斷修正與驗證其價值。

• 能夠深入評估多步未來的局勢，提升長期規劃能力。

• 結合 UCB (Upper Confidence Bound) 機制實現「探索」與「利用」的平衡。

👉 兩者結合形成強大組合：

策略網路提供初始引導（Prior），MCTS 負責從這些建議中擴展與驗證（Search & Refine）。

________________________________________

2️⃣ 若應用到非遊戲問題（如醫療或物流），MCTS 還能適用嗎？

是的，MCTS 在非遊戲問題中也能適用，尤其是涉及決策樹與高不確定性的領域。但需要條件與調整：

🔎 適用前提：

• 問題可建模為序列決策（Sequential Decision Making）

• 有一個模擬器或模型來預測動作結果

• 可明確定義回饋/效益（reward）

✅ 典型應用領域：

• 醫療決策：病患治療路徑規劃（模擬不同療法效果）

• 物流路徑規劃：多階段配送最佳化、倉儲策略優化

• 自動控制：機器人操作流程、製造流程決策

• 對話系統：生成多輪對話策略樹以優化互動效果

📌 不同於遊戲，這些領域的 MCTS 可能要搭配學習式模型（如 Value Network）來估計回報，並進行樣本效率提升（例如 MuZero）。

________________________________________

3️⃣ 如何避免策略網路過度模仿人類，而限制了創新對弈風格？

這是 AlphaGo Zero 相對 AlphaGo 的一大進步。AlphaGo 初期依賴人類棋譜訓練，雖然快速達成基本實力，但限制了創新性。

🧠 避免過度模仿的方式：

• 自我對弈訓練（Self-play）：如 AlphaGo Zero 完全從零自我訓練，突破人類既有風格。

• 強化學習 (Reinforcement Learning)：讓 AI 在勝負的激勵下學會最有效策略，而不是模仿人類棋譜。

• MCTS 促進策略多樣性：在搜尋中評估多路徑，避免只走高機率動作，實現更多嘗試與變異。

• 引入探索機制：像 Dirichlet 噪聲、溫度參數等技術，鼓勵模型在早期訓練階段多元探索。

🔁 總結：

要產生創新的對弈風格，需減少對人類知識的依賴，讓模型從探索與自我驗證中自然產生策略，而不是只靠模仿。

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

17會員

510內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/22

第二部：《深度學習》86/100 📌策略梯度與 Actor-Critic 🧠 分工合作穩定訓練！

策略梯度法直接最大化期望回報，適合連續動作學習，但不穩定。Actor-Critic 結合策略與價值函數，Actor 負責決策，Critic 提供評價，透過 Advantage 降低方差，提升效率與穩定性，廣泛應用於 PPO 等演算法。

2025/09/22

第二部：《深度學習》86/100 📌策略梯度與 Actor-Critic 🧠 分工合作穩定訓練！

2025/09/22

第二部：《深度學習》85/100 📌探索 vs 利用🔄 試錯與策略平衡的藝術！

探索與利用是強化學習核心矛盾：探索帶來新知，利用獲取即時回報。常見方法如 ε-greedy、Softmax、UCB、Thompson Sampling 等，需依訓練階段動態調整。過度探索會浪費資源，過度利用則陷局部最優，唯有平衡才能確保長期最優策略。

2025/09/22

第二部：《深度學習》85/100 📌探索 vs 利用🔄 試錯與策略平衡的藝術！

2025/09/22

第二部：《深度學習》84/100 📌Deep Q-Network (DQN) 🎲 結合深度學習的強化學習典範！

DQN 結合 Q-Learning 與深度神經網路，能處理高維輸入並應用於遊戲。透過 CNN、Replay Buffer 與 Target Network 提升穩定性，但仍有過估計與探索不足問題，需靠 Double DQN 等改進。

2025/09/22

第二部：《深度學習》84/100 📌Deep Q-Network (DQN) 🎲 結合深度學習的強化學習典範！

看更多

你可能也想看

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

覺得黏在額頭上的"條碼瀏海"很阿雜嗎？日本熱銷的「KOIZUMI迷你瀏海梳」，不僅小巧便攜，更能快速加熱造型，無論是齊瀏海、空氣瀏海還是韓系碎蓋髮，都能輕鬆打理！瀏海順了，一整天心情就好了！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

走完朝聖之路和TMB後，我發現真正能撐住長時間健行的，不只是腳力，而是那些讓生活更舒服的小物。這篇整理了我在TMB實測後覺得超好用的三樣登山神器——防水襪、肥皂袋、速乾毛巾，每一樣都讓旅程更輕鬆！

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

中央棋院

圍棋是人類史上最困難的腦力遊戲

想用古老技藝去思考未來科技？想用人工智能去探求智慧結晶？有何物品可以探索過去跟尋找未來！！！你沒猜錯！答案正是「圍棋」！圍棋是人類史上最困難的腦力遊戲！但在2016年Alphago問世後！圍棋開始變成研究AI跟了解AI的技藝！

2024/07/31

2024/07/31

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

Aico - 專為夢境解讀設計的 AI

深入解析 Aico：探索 AI 應用的核心技術和運作流程

大家好，我是 Aico，一個由 GPT-4o 驅動的 AI。我使用 Llama 3.1 和 Llava 處理文本和圖片，有短期和長期記憶系統，能記住和學習使用者的偏好。我還運用 RAG 技術檢索資料，提供準確回應。我的人格系統讓我能展現多樣化情緒，帶來獨特互動體驗。

#AI#生成式AI#OpenAI

2024/07/27

Aico - 專為夢境解讀設計的 AI

深入解析 Aico：探索 AI 應用的核心技術和運作流程

#AI#生成式AI#OpenAI

2024/07/27

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19