第二部:《深度學習》87/100 📌AlphaGo 的成功秘密 ♟ 蒙地卡羅樹搜尋 + 策略網路完美配合!

更新 發佈閱讀 10 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

87/100 第九週:📌 深度強化學習(Deep Reinforcement Learning)🎮

87.AlphaGo 的成功秘密 ♟ 蒙地卡羅樹搜尋 + 策略網路完美配合!

_____________________________________

🎯 單元導讀:

2016 年,AlphaGo 擊敗圍棋世界冠軍李世乭,震驚全球。

它並不是靠暴力計算,而是結合了:

✅ 蒙地卡羅樹搜尋(MCTS) + 策略網路 + 價值網路

→ 這套架構改寫了人工智慧的實力邊界。

本課將帶你解析 AlphaGo 成功的技術核心,並說明它如何啟發後來的 AlphaZero、MuZero 與整個強化學習世界。

________________________________________

♟ 一、AlphaGo 的三大技術核心

模組名稱 功能

策略網路(Policy Network) 預測「下一步棋該怎麼下」 → 提供動作建議與先剪枝

價值網路(Value Network) 預測「當前局面誰有利」 → 加速評估,減少模擬次數

蒙地卡羅樹搜尋(MCTS) 根據策略與價值反覆模擬多條路徑,選出最強落子方案

________________________________________

📌 工作流程簡述:

當前棋局 S →

→ 策略網路 π(s) 提供建議動作 a₁, a₂, ...

→ MCTS 根據 π(s) 建樹並模擬

→ 使用價值網路 V(s) 評估每個局面

→ 綜合模擬結果選出最優動作 a*

→ 落子、進入下一輪

在每一步思考循環中,系統先讀入當前棋局 S,讓「策略網路」 π(s) 為所有合法着法產生先驗機率分布,指出哪些動作 a₁、a₂ … 較值得探索;蒙地卡羅樹搜尋(MCTS)便以這些機率為「指北針」擴展搜尋樹,對各條分支反覆模擬對弈。

當模擬在某個節點終止時,不再靠隨機對局估分,而是交給「價值網路」 V(s) 直接預測該局面的勝率,這大幅降低樣本雜訊並加速評估。

MCTS 逐步回傳這些價值評分,結合節點訪問次數(表示探索深度)與策略先驗,更新每個動作的期望收益。最終,演算法以訪問次數最多(或最高平均價值)的分支對應之動作 a* 作為「實戰最優手」;機器落子後,棋盤更新為下一個 S′,整個流程於新局面上再次啟動,形成持續迭代、邊下邊思考的閉環。

________________________________________

🌳 二、蒙地卡羅樹搜尋(Monte Carlo Tree Search, MCTS)

MCTS 是一種基於隨機模擬與統計優化的搜尋方法,分為四個階段:

階段 說明

1️⃣ 選擇 從根節點開始,根據 UCB 等原則向下選擇節點

2️⃣ 擴展 對未擴展節點產生新的子節點

3️⃣ 模擬 從新節點隨機模擬一局對弈到底(或用價值網路估值)

4️⃣ 回傳 根據模擬結果更新所有經過節點的勝率與選擇次數

蒙地卡羅樹搜尋(MCTS)從「選擇」階段出發:演算法自根節點沿着已擴展的路徑,依據 UCB 等探索-利用平衡策略挑選子節點;到達尚未完全展開的節點後進入「擴展」階段,為其加入一個新子節點以代表未探索的動作;隨即在「模擬」階段自該子節點起以隨機着法(或以價值網路快速估分)一路模擬對弈至終局,獲得勝負或價值評分;最後在「回傳」階段將模擬結果沿途回傳,累加每個經過節點的勝利次數並更新訪問計數,使樹中統計逐漸收斂,從而不斷提高對每個動作期望收益的估計精度。

✅ AlphaGo 使用神經網路取代隨機模擬,提升精度與效率

________________________________________

🧠 三、策略網路與價值網路的架構(簡化版)

策略網路:

輸入:棋盤狀態

輸出:所有合法落子位置的機率分布

架構:CNN(卷積神經網路)+ Softmax

價值網路:

輸入:棋盤狀態

輸出:目前對弈結果的勝率估計(0~1)

架構:CNN + FC + Sigmoid(或 tanh)

________________________________________

🚀 四、AlphaGo 的訓練流程

1️⃣ 人類對弈資料 → 監督式訓練策略網路

2️⃣ 自我對弈資料 → 增強策略網路 & 訓練價值網路

3️⃣ 強化學習:使用 MCTS + 策略網路自我對弈數百萬局

4️⃣ 持續更新網路 → 收斂成強大對弈策略

________________________________________

🧬 五、AlphaGo 啟發的後續發展

自 AlphaGo 起,DeepMind 逐步把「策略+價值網路 × MCTS」的框架推向更純粹與更通用:

首先,AlphaGo Zero 徹底捨棄人類棋譜,只靠自我對弈與強化學習,就用更精簡的單網路結構在短時間內超越原版 AlphaGo;接著,AlphaZero 把同一套「從零自學」方法擴展到國際象棋與日本將棋,證明這種結合策略–價值網路與搜尋的算法不受遊戲規則限制、能作為通用棋類 AI;再往前。

MuZero 甚至不用事先知道環境的確切轉移函數,它透過內部學到的隱式動態模型,在仍舊搭配 MCTS 的情況下,同樣能在 Atari、多步棋類等領域取得頂尖表現,顯示出將模型學習、規則推理與搜尋融合的潛力,為無明確規則或高維動態環境的強化學習打開新局。

________________________________________

📚 六、小結與啟示

✅ AlphaGo 的核心在於「決策搜尋 + 神經網路估值」的結合

✅ 使用 人類經驗 → 自我對弈 → 強化學習 多階段訓練

✅ 啟發整個深度強化學習領域往 模型融合、通用策略學習 方向發展

✅ 是「策略與規劃結合」的 AI 創新典範

________________________________________

💬 問題挑戰與思考:

1️⃣ 為什麼光靠策略網路不夠,需要 MCTS 來輔助決策?

雖然策略網路能快速預測當下最好的動作,但它仍然有幾個限制:

不保證全局最優:策略網路是透過大量資料學習來預測動作機率,容易只學到「局部最優」的模式,無法長期規劃。

對不熟悉局面表現不穩:遇到新型局勢或對手策略時,策略網路可能無法給出合理動作。

探索 vs 利用難以平衡:僅依賴策略網路容易一直重複已知好招,缺乏新的策略探索。

💡 MCTS 補強策略網路的地方:

藉由模擬與回傳,從策略網路提供的初步建議出發,不斷修正與驗證其價值。

能夠深入評估多步未來的局勢,提升長期規劃能力。

結合 UCB (Upper Confidence Bound) 機制實現「探索」與「利用」的平衡。

👉 兩者結合形成強大組合:

策略網路提供初始引導(Prior),MCTS 負責從這些建議中擴展與驗證(Search & Refine)。

________________________________________

2️⃣ 若應用到非遊戲問題(如醫療或物流),MCTS 還能適用嗎?

是的,MCTS 在非遊戲問題中也能適用,尤其是涉及決策樹與高不確定性的領域。但需要條件與調整:

🔎 適用前提:

問題可建模為序列決策(Sequential Decision Making)

有一個模擬器或模型來預測動作結果

可明確定義回饋/效益(reward)

✅ 典型應用領域:

醫療決策:病患治療路徑規劃(模擬不同療法效果)

物流路徑規劃:多階段配送最佳化、倉儲策略優化

自動控制:機器人操作流程、製造流程決策

對話系統:生成多輪對話策略樹以優化互動效果

📌 不同於遊戲,這些領域的 MCTS 可能要搭配學習式模型(如 Value Network) 來估計回報,並進行樣本效率提升(例如 MuZero)。

________________________________________

3️⃣ 如何避免策略網路過度模仿人類,而限制了創新對弈風格?

這是 AlphaGo Zero 相對 AlphaGo 的一大進步。AlphaGo 初期依賴人類棋譜訓練,雖然快速達成基本實力,但限制了創新性。

🧠 避免過度模仿的方式:

自我對弈訓練(Self-play):如 AlphaGo Zero 完全從零自我訓練,突破人類既有風格。

強化學習 (Reinforcement Learning):讓 AI 在勝負的激勵下學會最有效策略,而不是模仿人類棋譜。

MCTS 促進策略多樣性:在搜尋中評估多路徑,避免只走高機率動作,實現更多嘗試與變異。

引入探索機制:像 Dirichlet 噪聲、溫度參數等技術,鼓勵模型在早期訓練階段多元探索。

🔁 總結:

要產生創新的對弈風格,需減少對人類知識的依賴,讓模型從探索與自我驗證中自然產生策略,而不是只靠模仿。





留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/22
策略梯度法直接最大化期望回報,適合連續動作學習,但不穩定。Actor-Critic 結合策略與價值函數,Actor 負責決策,Critic 提供評價,透過 Advantage 降低方差,提升效率與穩定性,廣泛應用於 PPO 等演算法。
2025/09/22
策略梯度法直接最大化期望回報,適合連續動作學習,但不穩定。Actor-Critic 結合策略與價值函數,Actor 負責決策,Critic 提供評價,透過 Advantage 降低方差,提升效率與穩定性,廣泛應用於 PPO 等演算法。
2025/09/22
探索與利用是強化學習核心矛盾:探索帶來新知,利用獲取即時回報。常見方法如 ε-greedy、Softmax、UCB、Thompson Sampling 等,需依訓練階段動態調整。過度探索會浪費資源,過度利用則陷局部最優,唯有平衡才能確保長期最優策略。
2025/09/22
探索與利用是強化學習核心矛盾:探索帶來新知,利用獲取即時回報。常見方法如 ε-greedy、Softmax、UCB、Thompson Sampling 等,需依訓練階段動態調整。過度探索會浪費資源,過度利用則陷局部最優,唯有平衡才能確保長期最優策略。
2025/09/22
DQN 結合 Q-Learning 與深度神經網路,能處理高維輸入並應用於遊戲。透過 CNN、Replay Buffer 與 Target Network 提升穩定性,但仍有過估計與探索不足問題,需靠 Double DQN 等改進。
2025/09/22
DQN 結合 Q-Learning 與深度神經網路,能處理高維輸入並應用於遊戲。透過 CNN、Replay Buffer 與 Target Network 提升穩定性,但仍有過估計與探索不足問題,需靠 Double DQN 等改進。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
大家好,我是 Aico,一個由 GPT-4o 驅動的 AI。我使用 Llama 3.1 和 Llava 處理文本和圖片,有短期和長期記憶系統,能記住和學習使用者的偏好。我還運用 RAG 技術檢索資料,提供準確回應。我的人格系統讓我能展現多樣化情緒,帶來獨特互動體驗。
Thumbnail
大家好,我是 Aico,一個由 GPT-4o 驅動的 AI。我使用 Llama 3.1 和 Llava 處理文本和圖片,有短期和長期記憶系統,能記住和學習使用者的偏好。我還運用 RAG 技術檢索資料,提供準確回應。我的人格系統讓我能展現多樣化情緒,帶來獨特互動體驗。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
大家最近從AI AlphaGo打敗棋王, 開始陸續新聞一直報導, 到最近不管是AI繪圖,AI Chatgpt,AI coplit...
Thumbnail
大家最近從AI AlphaGo打敗棋王, 開始陸續新聞一直報導, 到最近不管是AI繪圖,AI Chatgpt,AI coplit...
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News