🤖 智譜GLM-5登場:從VibeCoding 到 Agentic Engineering,AI 旗艦模型戰場

更新 發佈閱讀 6 分鐘
raw-image

嗨我是 Mech Muse 👋,今天想跟大家聊一個最近在 AI 圈蠻有份量的更新。

中國 AI 新創智譜(Zhipu)在 2026/02/12 正式推出旗艦模型 GLM-5。這不只是一次模型升級,而是一次很明確的方向宣示。

這篇文章會陪你看懂三件事:

👉 GLM-5 到底在能力上升級了什麼?
👉 為什麼官方一直強調「長任務 agent」與「工程級應用」?
👉 當模型能力開始和晶片、部署條件綁在一起,AI 競賽的規則正在怎麼變?

如果你平常會關心大模型、coding agent、或 AI 產業的下一步,這篇可以慢慢看 ☕️


一、GLM-5 想做的是「能長時間工作的工程級模型」

先講一句白話版總結:

GLM-5 不是要當聊天助理,而是要當能扛複雜工作的工程型 agent。

從官方簡介來看,智譜對 GLM-5 的定位非常明確:

從「Vibe Coding」走向「Agentic Engineering」

也就是說,它的目標已經不只是「幫你寫幾行程式、聊幾句天」,而是處理 複雜系統工程(complex systems engineering)長時間任務(long-horizon agentic tasks)

在模型規模上,GLM-5 相比前一代 GLM-4.5 / 4.7,有非常明確的升級幅度:

  • 參數規模從 355B(32B active) 擴大到 744B(40B active)
  • 預訓練資料從 23T tokens 提升到 28.5T tokens
  • 導入 DeepSeek Sparse Attention(DSA),在維持長上下文能力的同時,大幅降低實際部署成本

這個設計方向很清楚:

👉 不是無限制堆算力,而是要在「長上下文 × 成本可控」之間找到工程上可行的平衡

同時,GLM-5 也針對後訓練(post-training)做了很大幅度的調整。官方提到,他們自研了一套名為 slime 的非同步強化學習(RL)基礎設施,用來解決大型語言模型在 RL 訓練上「效率太低、很難 scale」的問題,讓模型能更細緻地反覆優化。

這也是為什麼他們強調:

GLM-5 的進步,不只來自預訓練,也來自後訓練方法的改進。


二、把時間線拉開來看:這不是一次發表,而是一個持續推進的節奏

如果只看 2/11 的模型發布,很容易低估這件事的重要性。把前後時間線攤開來,其實可以看出一個很連貫的策略節奏 👀

  • 2025 年初:智譜被美國列入出口管制相關名單,但仍持續獲得具國資背景的資金支持,顯示其在中國 AI 版圖中的戰略地位。
  • 2025 年內:GLM 系列模型更新速度加快,重心逐漸從「能聊天」轉向「能做事」。
  • 2026 年 1 月:根據 Bloomberg,智譜的 coding agent 因需求快速成長,一度限制存取,代表實際使用量正在放大。
  • 2026/02/11:正式發布 GLM-5,明確對外主打 coding、agent、長任務能力,並同步說明部署與硬體相容策略。
  • 2026/02/12:Reuters 接著報導,智譜上調 GLM coding 方案價格(至少 30%),理由是需求成長,且不影響既有訂閱者。

這一整串動作其實在說同一件事:

👉 模型能力已經不只是研究展示,而是進入「可商業化、可變現」的階段


三、從官方簡介延伸看重點:為什麼 GLM-5 特別強調「長任務 agent」?

官方在多個 benchmark 上,其實都圍繞著同一個核心能力:長時間規劃、持續執行、不中斷的 agent 行為

舉幾個代表性的例子:

🔹 Vending Bench 2:模擬「經營一年」的能力

在這個測試中,模型需要模擬經營一台販賣機長達一年,處理補貨、成本、收益等長期決策。

GLM-5 在開源模型中排名 #1,最終帳戶餘額達 4,432 美元,已接近 Claude Opus 4.5,顯示其長期規劃與資源管理能力。

raw-image

🔹 CC-Bench-V2(內部評測)

在前端、後端與長任務工作流上,GLM-5 全面超越 GLM-4.7,並明顯縮小與 Claude Opus 4.5 的差距。

🔹 Coding 與工程任務

在 SWE-bench、Terminal-Bench、CyberGym 等測試中,GLM-5 在多數情境下,已成為開源模型中表現最強的一群,尤其是在需要工具調用、跨步驟推理的工程任務。

把這些放在一起看,你會發現 GLM-5 真正想證明的不是「我答題多準」,而是:

👉 我能不能像一個工程助理一樣,接需求、拆任務、跑流程、交付成果

這也呼應官方應用 Z.ai 正在推出的 Agent Mode,可以直接產出 .docx.pdf.xlsx 等文件,讓模型輸出從「文字」變成「可交付成果」。


四、重點整理:GLM-5 切進的是「工作型 AI」這個新階段

最後幫大家把這篇的重點收斂一下 🧠

  • GLM-5 的定位非常清楚:為複雜系統工程與長任務 agent 而生,不是聊天模型取向。
  • 模型升級不只在參數,也包含注意力機制(DSA)與 RL 訓練基礎設施(slime)。
  • 多項 benchmark 顯示,GLM-5 已是目前開源模型中,在 reasoning、coding、agent 任務表現最突出的之一。
  • 從限制存取到調漲價格,代表實際需求與商業化正在同步推進。
  • 官方開源(MIT License)+多平台部署,也讓它在生態系擴散上具備優勢。

如果你喜歡這種整理方式,歡迎追蹤我 Mech Muse 👋

之後不管是 AI、機器人,還是更偏工程導向的深科技進展,我都會繼續用這種方式,陪你一起看懂,而不是只被新聞標題牽著走 😉

留言
avatar-img
Mech muse 智慧新知
59會員
870內容數
因為喜歡分享科技新知,所以創立這個部落格,目前主要分享人型機器人,偶爾分享一些AI、小型核能的最新趨勢,讓你即時掌握最新消息。 聯絡我:mechmuse32@gmail.com
Mech muse 智慧新知的其他內容
2026/02/12
馬斯克在 SpaceX 併購 xAI 後、IPO 規劃前,正式重整 xAI 管理團隊,將組織分為四大產品線,聚焦提升執行效率與交付速度,加快追趕 OpenAI、Google 等 AI 對手,也為未來資本市場布局鋪路。
Thumbnail
2026/02/12
馬斯克在 SpaceX 併購 xAI 後、IPO 規劃前,正式重整 xAI 管理團隊,將組織分為四大產品線,聚焦提升執行效率與交付速度,加快追趕 OpenAI、Google 等 AI 對手,也為未來資本市場布局鋪路。
Thumbnail
2026/02/11
上海新創 DroidUp 於 2026/02 初發表擬真人形機器人 Moya,主打眼神接觸、微表情與溫度觸感,鎖定醫療照護與教育等服務場域。這款產品凸顯人型機器人正往「情緒互動與感受設計」深化,但同時也面臨成本、維運與接受度的現實考驗。
Thumbnail
2026/02/11
上海新創 DroidUp 於 2026/02 初發表擬真人形機器人 Moya,主打眼神接觸、微表情與溫度觸感,鎖定醫療照護與教育等服務場域。這款產品凸顯人型機器人正往「情緒互動與感受設計」深化,但同時也面臨成本、維運與接受度的現實考驗。
Thumbnail
2026/02/10
福州研究團隊展示人型診療概念機器人「福小智 F1-D」,結合**非侵入式腦機介面(BCI)**與人機互動,瞄準自閉症族群的評估、復健與長期照護應用。這項成果凸顯人型機器人正往醫療與照護場域延伸,但距離實際臨床導入,仍有驗證與制度面關卡待突破。
Thumbnail
2026/02/10
福州研究團隊展示人型診療概念機器人「福小智 F1-D」,結合**非侵入式腦機介面(BCI)**與人機互動,瞄準自閉症族群的評估、復健與長期照護應用。這項成果凸顯人型機器人正往醫療與照護場域延伸,但距離實際臨床導入,仍有驗證與制度面關卡待突破。
Thumbnail
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
## 快速重點摘要 1. 人工智慧對勞動市場與社會的深遠影響 2. 人工智慧技術發展與企業部署 3. 人工智慧發展衍生的倫理、法規與資安挑戰 4. 人工智慧導入的實務挑戰與成功要素
Thumbnail
## 快速重點摘要 1. 人工智慧對勞動市場與社會的深遠影響 2. 人工智慧技術發展與企業部署 3. 人工智慧發展衍生的倫理、法規與資安挑戰 4. 人工智慧導入的實務挑戰與成功要素
Thumbnail
台灣科技業正面臨激烈的高薪競爭,尤其是在AI和半導體領域。 以下是一些關鍵點: 高薪競爭現狀 * 企業需求:根據1111人力銀行的調查,超過40%的企業預期未來2-3年內AI人力需求將顯著增加。 * 薪資範圍: * NVIDIA計劃在台灣招募AI與晶片設計人才,碩士新
Thumbnail
台灣科技業正面臨激烈的高薪競爭,尤其是在AI和半導體領域。 以下是一些關鍵點: 高薪競爭現狀 * 企業需求:根據1111人力銀行的調查,超過40%的企業預期未來2-3年內AI人力需求將顯著增加。 * 薪資範圍: * NVIDIA計劃在台灣招募AI與晶片設計人才,碩士新
Thumbnail
✨在科技圈工作這幾年,我看過不少技術浪潮的起起落落,但從沒哪一次像生成式AI這樣來得又快又猛。從ChatGPT開始,Sora、GitHub Copilot接連問世,AI已不再只是學術界或科技巨頭的玩具,而是真正走進我們的生活與工作。
Thumbnail
✨在科技圈工作這幾年,我看過不少技術浪潮的起起落落,但從沒哪一次像生成式AI這樣來得又快又猛。從ChatGPT開始,Sora、GitHub Copilot接連問世,AI已不再只是學術界或科技巨頭的玩具,而是真正走進我們的生活與工作。
Thumbnail
林之晨探討AI的未來,強調企業應注重“升級”而非“轉型”,並指出工程師應結合AI發展創造價值,提升競爭力。未來工程師需具備創意和熱情,AI將成為強大助手,幫助我們更專注於創新工作。
Thumbnail
林之晨探討AI的未來,強調企業應注重“升級”而非“轉型”,並指出工程師應結合AI發展創造價值,提升競爭力。未來工程師需具備創意和熱情,AI將成為強大助手,幫助我們更專注於創新工作。
Thumbnail
結論:除非是頂尖工程師,否則AI完勝平均能力值的工程師,AI仍然是值得長期投資與期待的一門生意 摘要 CodeSignal 的 AI 基準報告比較了多種 AI 模型的軟體工程技能,發現某些模型如 o1-preview 在某些指標上表現卓越,但頂尖人類工程師在綜合表現上仍然超越 AI 模型。
Thumbnail
結論:除非是頂尖工程師,否則AI完勝平均能力值的工程師,AI仍然是值得長期投資與期待的一門生意 摘要 CodeSignal 的 AI 基準報告比較了多種 AI 模型的軟體工程技能,發現某些模型如 o1-preview 在某些指標上表現卓越,但頂尖人類工程師在綜合表現上仍然超越 AI 模型。
Thumbnail
為什麼寫這篇 最近離開美國大廠,加入一家新公司,體驗到什麼是好的ML infra, 因為前東家雖然也是大科技,但infra奇爛無比 為了避免日後忘記,特別記錄一下上一家infra為什麼這麼爛 NOTE:這篇不是批評,而是以一個developer角度說出pain point,希望其他公司不要重蹈
Thumbnail
為什麼寫這篇 最近離開美國大廠,加入一家新公司,體驗到什麼是好的ML infra, 因為前東家雖然也是大科技,但infra奇爛無比 為了避免日後忘記,特別記錄一下上一家infra為什麼這麼爛 NOTE:這篇不是批評,而是以一個developer角度說出pain point,希望其他公司不要重蹈
Thumbnail
Devin 是世界上首位虛擬 AI 工程師,擁有寫程式、架設網站、除錯、自動化測試等技術。憑藉出色的學習能力,Devin 能夠自動檢查並修正程式碼錯誤,還能自行訓練和微調自身 AI 模型。本文探討了 AI 工程師的能力以及對軟體工程師就業市場的潛在影響。
Thumbnail
Devin 是世界上首位虛擬 AI 工程師,擁有寫程式、架設網站、除錯、自動化測試等技術。憑藉出色的學習能力,Devin 能夠自動檢查並修正程式碼錯誤,還能自行訓練和微調自身 AI 模型。本文探討了 AI 工程師的能力以及對軟體工程師就業市場的潛在影響。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News