從《星海爭霸》到 Google 資料中心:AI 如何走入現實世界的決策控制
課程背景
在 UC Berkeley CS294-196 (Fall 2025) 的課程中,Clay Bavor(Google 前副總裁、Sierra 共同創辦人)分享了他在 Google 生態系中,如何將研究團隊的成果轉化為可實際部署系統的經驗。這不僅是關於 AI 的演進,更是關於「如何讓 AI 在複雜系統中變得可靠」。

如果你是《星海爭霸》(StarCraft II)的玩家,會對這段歷程感到格外親切;但即便不是玩家,也能從中理解 AI 從「遊戲行為」轉向「工業控制」的關鍵思維。
📌第一階段:AlphaStar 的技術突破
AlphaStar 是 DeepMind 於 2019 年發表的系統。與早期解決棋類遊戲的 AlphaZero 不同,AlphaStar 面對的是一個更接近現實的環境:高度複雜、不完全資訊、且為即時(非回合制)決策。
為了克服這些難題,AlphaStar 引入了核心機制:
聯盟訓練(League Training): 讓多個 Agent 彼此競爭,而非僅僅自我對弈。
剋星策略(Exploiters): 專門訓練一批 AI 來找現有最強策略的弱點,強迫系統不斷演化。
穩健性(Robustness): AlphaStar 顯示的關鍵點在於:在複雜系統中,單一的最優解通常是脆弱的,必須透過對抗訓練來培養在各種極端情境下(Corner Cases)都能存活的穩健策略。
AlphaStar 顯示,在高度複雜的對抗系統中,單一自我對戰容易收斂到脆弱策略,必須透過多樣化對手與刻意設計的對抗壓力,才能學到穩健行為。
📌第二階段:將技術「接地」——從電競到資料中心
看著AlphaStar 在遊戲內行雲流水,我的腦袋不禁思考:AI 這麼強,為什麼還沒變成 AGI(通用人工智能)?
雖然資料中心冷卻控制在時間線上早於 AlphaStar,且由不同的團隊負責,但它們在 Google 的 AI 發展史中共同指向同一個里程碑:做出在特定控制指標上,比人類經驗法則更穩健的決策。
關鍵在於「環境的邊界」。 StarCraft 是一個雖然複雜,但規則固定、可被高度工程化模擬的封閉系統。而在現實生活中,資料的混亂程度與使用者的隨機性,使得 AI 容易顯得「傻里傻氣」。
共通的訓練邏輯:
可建模的物理系統: 資料中心的溫度、電力負載與設備狀態可以被精準建模,形成一個「封閉且可模擬」的環境,這與遊戲引擎如出一轍。
長期策略大於即時優化: 冷卻控制不是只看當下的溫度,而是要預測未來負載對系統的影響。這與星海爭霸中的「長程布局(Long-horizon planning)」邏輯一致。
追求穩健而非投機: 就像 AlphaStar 要防範對手的怪招,冷卻系統必須在熱浪、設備故障或負載激增時依然保持安全,這就是「策略學習(Policy Learning)」的威力。
這種對複雜環境的『策略學習』,可能正是今日企業級 Agent 邁向實用的前身。
📌第三階段:AI Agent 的未來——Sierra 的企業級願景
Clay Bavor 離開 Google 後創辦了 Sierra,目標是將這套「可靠、穩健」的 Agentic AI 帶入企業環境。
Sierra 的核心產品是企業級 AI Agent 平台,在設計哲學上,它與 AlphaStar 的精神是一脈相承的:
Agentic Workflows(多步驟任務): 不再只是對話,而是像打星海一樣,能執行跨系統的長流程決策。
嚴格的 Policy(行為準則): 借鑒工業控制的經驗,為 LLM 設定嚴格的「護欄」,確保 AI 不會因隨機性而產生幻覺或違規。
可信任的部署: 它的目標不是讓 AI 看起來「更聰明」,而是讓 AI 在充滿變數的企業環境中,像冷卻系統一樣在明確邊界內可預期、可監控且可信賴。
---
前一陣子好忙~ 我回來啦 😚😚😚




















