
嗨我是 Mech Muse 👋,今天想跟大家聊一個最近在 AI 圈蠻有份量的更新。
中國 AI 新創智譜(Zhipu)在 2026/02/12 正式推出旗艦模型 GLM-5。這不只是一次模型升級,而是一次很明確的方向宣示。
這篇文章會陪你看懂三件事:👉 GLM-5 到底在能力上升級了什麼?
👉 為什麼官方一直強調「長任務 agent」與「工程級應用」?
👉 當模型能力開始和晶片、部署條件綁在一起,AI 競賽的規則正在怎麼變?
如果你平常會關心大模型、coding agent、或 AI 產業的下一步,這篇可以慢慢看 ☕️
一、GLM-5 想做的是「能長時間工作的工程級模型」
先講一句白話版總結:
GLM-5 不是要當聊天助理,而是要當能扛複雜工作的工程型 agent。
從官方簡介來看,智譜對 GLM-5 的定位非常明確:
從「Vibe Coding」走向「Agentic Engineering」
也就是說,它的目標已經不只是「幫你寫幾行程式、聊幾句天」,而是處理 複雜系統工程(complex systems engineering) 與 長時間任務(long-horizon agentic tasks)。
在模型規模上,GLM-5 相比前一代 GLM-4.5 / 4.7,有非常明確的升級幅度:
- 參數規模從 355B(32B active) 擴大到 744B(40B active)
- 預訓練資料從 23T tokens 提升到 28.5T tokens
- 導入 DeepSeek Sparse Attention(DSA),在維持長上下文能力的同時,大幅降低實際部署成本
這個設計方向很清楚:
👉 不是無限制堆算力,而是要在「長上下文 × 成本可控」之間找到工程上可行的平衡。
同時,GLM-5 也針對後訓練(post-training)做了很大幅度的調整。官方提到,他們自研了一套名為 slime 的非同步強化學習(RL)基礎設施,用來解決大型語言模型在 RL 訓練上「效率太低、很難 scale」的問題,讓模型能更細緻地反覆優化。
這也是為什麼他們強調:
GLM-5 的進步,不只來自預訓練,也來自後訓練方法的改進。
二、把時間線拉開來看:這不是一次發表,而是一個持續推進的節奏
如果只看 2/11 的模型發布,很容易低估這件事的重要性。把前後時間線攤開來,其實可以看出一個很連貫的策略節奏 👀
- 2025 年初:智譜被美國列入出口管制相關名單,但仍持續獲得具國資背景的資金支持,顯示其在中國 AI 版圖中的戰略地位。
- 2025 年內:GLM 系列模型更新速度加快,重心逐漸從「能聊天」轉向「能做事」。
- 2026 年 1 月:根據 Bloomberg,智譜的 coding agent 因需求快速成長,一度限制存取,代表實際使用量正在放大。
- 2026/02/11:正式發布 GLM-5,明確對外主打 coding、agent、長任務能力,並同步說明部署與硬體相容策略。
- 2026/02/12:Reuters 接著報導,智譜上調 GLM coding 方案價格(至少 30%),理由是需求成長,且不影響既有訂閱者。
這一整串動作其實在說同一件事:
👉 模型能力已經不只是研究展示,而是進入「可商業化、可變現」的階段。
三、從官方簡介延伸看重點:為什麼 GLM-5 特別強調「長任務 agent」?
官方在多個 benchmark 上,其實都圍繞著同一個核心能力:長時間規劃、持續執行、不中斷的 agent 行為。
舉幾個代表性的例子:
🔹 Vending Bench 2:模擬「經營一年」的能力
在這個測試中,模型需要模擬經營一台販賣機長達一年,處理補貨、成本、收益等長期決策。
GLM-5 在開源模型中排名 #1,最終帳戶餘額達 4,432 美元,已接近 Claude Opus 4.5,顯示其長期規劃與資源管理能力。

🔹 CC-Bench-V2(內部評測)
在前端、後端與長任務工作流上,GLM-5 全面超越 GLM-4.7,並明顯縮小與 Claude Opus 4.5 的差距。
🔹 Coding 與工程任務
在 SWE-bench、Terminal-Bench、CyberGym 等測試中,GLM-5 在多數情境下,已成為開源模型中表現最強的一群,尤其是在需要工具調用、跨步驟推理的工程任務。
把這些放在一起看,你會發現 GLM-5 真正想證明的不是「我答題多準」,而是:
👉 我能不能像一個工程助理一樣,接需求、拆任務、跑流程、交付成果。
這也呼應官方應用 Z.ai 正在推出的 Agent Mode,可以直接產出 .docx、.pdf、.xlsx 等文件,讓模型輸出從「文字」變成「可交付成果」。
四、重點整理:GLM-5 切進的是「工作型 AI」這個新階段
最後幫大家把這篇的重點收斂一下 🧠
- GLM-5 的定位非常清楚:為複雜系統工程與長任務 agent 而生,不是聊天模型取向。
- 模型升級不只在參數,也包含注意力機制(DSA)與 RL 訓練基礎設施(slime)。
- 多項 benchmark 顯示,GLM-5 已是目前開源模型中,在 reasoning、coding、agent 任務表現最突出的之一。
- 從限制存取到調漲價格,代表實際需求與商業化正在同步推進。
- 官方開源(MIT License)+多平台部署,也讓它在生態系擴散上具備優勢。
如果你喜歡這種整理方式,歡迎追蹤我 Mech Muse 👋。
之後不管是 AI、機器人,還是更偏工程導向的深科技進展,我都會繼續用這種方式,陪你一起看懂,而不是只被新聞標題牽著走 😉



















