這次 NVIDIA GTC 主題內容很豐富,有講了 Agent、機器人、量子運算等,但其實最關鍵的還是他們新世代的 Vera Rubin 平台.
技術細節沒有講太多,不過我們試著從過往的一些資訊來拼湊老黃這次講的 Vera Rubin 平台不再只是伺服器,而是一個 Software-Defined, AI-Native System;這到底是甚麼意思呢?
1.「大規模推理與 Agentic AI」的 Vera Rubin 平台
黃仁勳提出的 Vera Rubin 異構平台 被視為 AI 運算從「單純訓練」轉向「大規模推理(Inference)」與「代理型 AI(Agentic AI)」的關鍵轉捩點。因為這樣的 AI 任務是複雜的,需要多種處理器協同工作。Vera Rubin 平台將以下整合為一個巨大的虛擬超級 AI 處理器:

而且是 Software-Defined, AI-Native System。這代表 NVIDIA 已經跳脫了單純追求晶片性能、功耗、面積的層次,轉向追求「系統協作的極致」。
再來新成員 LPU 是專為「推理速度」而生的.傳統 GPU 擅長並行處理大規模數據(吞吐量),但在生成 Token 需要不斷讀取記憶體會產生較高延遲,而 Groq 3 LPU 超大頻寬跟速度就能解決這問題:
- SRAM-Only 架構(速度之王): 每顆 Groq 3 LPU 晶片上 SRAM 頻寬高達 150 TB/s(遠超 HBM4 的 22 TB/s),數據在運算單元與記憶體之間的切換幾乎是「零等待」。
- 確定性執行(消除抖動): GPU 過去依賴動態調度,有時會因競爭資源產生延遲跳動(Jitter)。LPU 由編譯器在編譯階段就把數據資料「排好隊」,讓數據像傳送帶一樣精確流動到 LPU / GPU 。
- LPX 產品形態: NVIDIA 推出專屬的 Groq 3 LPX 機架,單機架內置 256 顆 LPU,提供 315 PFLOPS 的推論算力。這樣精準的數據流動讓資料不用在 cache 間等待跟搬運(又快又省電),其每兆瓦的推論吞吐量比傳統純 GPU 方案高出 35 倍。
2. 異構整合:解構式推論 (Disaggregated Inference)
「AI-natived」的體現就在於它理解 AI 任務的不同階段,並將其物理性地解構讓每一種硬體只做它最擅長的事:
- Vera CPU (總指揮官):負責 Agent 的邏輯調度與任務拆解。具備強大單執行緒效能,在納秒內決定請求去向,並處理複雜的強化學習分支。
- Rubin GPU (思考中心):搭載巨量 HBM4,專責大模型參數存儲與 Prefill (理解輸入) 階段,提供矩陣運算的吞吐量極限。
- Groq 3 LPU (發言代表):搭載極速 SRAM,專攻 Decode (產出 Token) 階段,將反應延遲降至人類感知以下。
3. 軟體中樞:Jonathan Ross 的「確定性調度」
ASIC 之所以比 GPU 快且省電,是因為其電路專門為特定應用或運算設計,資料跟數據不會在cache 之間搬來搬去,而是經過固定的乘法器跟加法器等電路運算就直接出來。
在傳統的 GPU 或 CPU 架構中,硬體調度是動態且非同步的;數據什麼時候從記憶體出來、什麼時候進算力單元,受限於多種變數(如匯流排爭搶、快取缺失)。因為數據到達的時間是不穩定(jitter),所以需要把數據搬到 Cache (作為 Buffer),這樣的數據搬運既耗時又耗電。
Groq 的 Jonathan Ross 導入的「確定性調度」技術,在 NVIDIA 通用硬體( Vera + Rubin + Groq )上達成「類似 ASIC」的效率:
- 編譯器即調度員 (Compiler-as-Scheduler):Ross 重新定義了 NVIDIA Dynamo,系統不再是隨機等待數據,而是在 compiler 時完成「納秒級」靜態排程。數據流又快又準的送到 LPU 去運算,消除過去最頭痛的延遲抖動(Jitter)。
- 自動分流層 (Transparent Routing):透過全新的軟體轉譯層,系統能自動將矩陣運算導向 Rubin,將時序敏感的生成任務轉譯為 LPU 指令集。對開發者而言,這是一套完全自動化的透明系統。
4. 記憶體金字塔:BlueField-4 與 ICMS 技術
NVIDIA 透過 ICMS (Inference Context Memory Storage) 建立了四層記憶體池:
- BlueField-4 DPU (數據管家):作為 AI 原生存儲的心臟,管理跨機架的數據搬運與 KV Cache 的智慧存放。
- 分層記憶體體系:SRAM 跟 LPU 提供 150 TB/s 的超大頻寬跟高速。HBM4 跟GPU 提供深度邏輯推理。 Vera CPU 與 BlueField-4 將少用 KV Cache 存放在低成本的DDR5 / NAND 等,實現記憶體又快、又大、又便宜。
5. 對決:專用ASIC vs. Software-defined AI-native system

6. 結論:一場蓄謀已久的降維打擊
NVIDIA 從 2024 年底就開始秘密布局的 Vera Rubin + Groq 3 架構,預計將在 2026 下半年展現了其真正的威力。
NVIDIA 的策略非常明確:是用「軟體定義」的靈活與「系統級整合」的精確,去模擬 ASIC 的高效。 這讓 NVIDIA 既保有了 GPU 的通用生態,又獲得了足以比擬 ASIC 的反應速度與更低成本優勢。
這也符合老黃一貫說的:「買越多,省越多」




















