NVIDIA GTC 2026：Software-Defined, AI-Native System

小滑

發佈於科技評論

2026/03/18 更新2026/03/18 發佈閱讀 6 分鐘

這次 NVIDIA GTC 主題內容很豐富，有講了 Agent、機器人、量子運算等，但其實最關鍵的還是他們新世代的 Vera Rubin 平台．

技術細節沒有講太多，不過我們試著從過往的一些資訊來拼湊老黃這次講的 Vera Rubin 平台不再只是伺服器，而是一個 Software-Defined, AI-Native System；這到底是甚麼意思呢？

1.「大規模推理與 Agentic AI」的 Vera Rubin 平台

黃仁勳提出的 Vera Rubin 異構平台 被視為 AI 運算從「單純訓練」轉向「大規模推理（Inference）」與「代理型 AI（Agentic AI）」的關鍵轉捩點。

因為這樣的 AI 任務是複雜的，需要多種處理器協同工作。Vera Rubin 平台將以下整合為一個巨大的虛擬超級 AI 處理器：

而且是 Software-Defined, AI-Native System。這代表 NVIDIA 已經跳脫了單純追求晶片性能、功耗、面積的層次，轉向追求「系統協作的極致」。

再來新成員 LPU 是專為「推理速度」而生的．傳統 GPU 擅長並行處理大規模數據（吞吐量），但在生成 Token 需要不斷讀取記憶體會產生較高延遲，而 Groq 3 LPU 超大頻寬跟速度就能解決這問題：

SRAM-Only 架構（速度之王）：每顆 Groq 3 LPU 晶片上 SRAM 頻寬高達 150 TB/s（遠超 HBM4 的 22 TB/s），數據在運算單元與記憶體之間的切換幾乎是「零等待」。
確定性執行（消除抖動）： GPU 過去依賴動態調度，有時會因競爭資源產生延遲跳動（Jitter）。LPU 由編譯器在編譯階段就把數據資料「排好隊」，讓數據像傳送帶一樣精確流動到 LPU / GPU 。
LPX 產品形態： NVIDIA 推出專屬的 Groq 3 LPX 機架，單機架內置 256 顆 LPU，提供 315 PFLOPS 的推論算力。這樣精準的數據流動讓資料不用在 cache 間等待跟搬運（又快又省電），其每兆瓦的推論吞吐量比傳統純 GPU 方案高出 35 倍。

2. 異構整合：解構式推論 (Disaggregated Inference)

「AI-natived」的體現就在於它理解 AI 任務的不同階段，並將其物理性地解構讓每一種硬體只做它最擅長的事：

Vera CPU (總指揮官)：負責 Agent 的邏輯調度與任務拆解。具備強大單執行緒效能，在納秒內決定請求去向，並處理複雜的強化學習分支。
Rubin GPU (思考中心)：搭載巨量 HBM4，專責大模型參數存儲與 Prefill (理解輸入) 階段，提供矩陣運算的吞吐量極限。
Groq 3 LPU (發言代表)：搭載極速 SRAM，專攻 Decode (產出 Token) 階段，將反應延遲降至人類感知以下。

3. 軟體中樞：Jonathan Ross 的「確定性調度」

ASIC 之所以比 GPU 快且省電，是因為其電路專門為特定應用或運算設計，資料跟數據不會在cache 之間搬來搬去，而是經過固定的乘法器跟加法器等電路運算就直接出來。

在傳統的 GPU 或 CPU 架構中，硬體調度是動態且非同步的；數據什麼時候從記憶體出來、什麼時候進算力單元，受限於多種變數（如匯流排爭搶、快取缺失）。因為數據到達的時間是不穩定(jitter)，所以需要把數據搬到 Cache （作為 Buffer），這樣的數據搬運既耗時又耗電。

Groq 的 Jonathan Ross 導入的「確定性調度」技術，在 NVIDIA 通用硬體（ Vera + Rubin + Groq ）上達成「類似 ASIC」的效率：

編譯器即調度員 (Compiler-as-Scheduler)：Ross 重新定義了 NVIDIA Dynamo，系統不再是隨機等待數據，而是在 compiler 時完成「納秒級」靜態排程。數據流又快又準的送到 LPU 去運算，消除過去最頭痛的延遲抖動（Jitter）。
自動分流層 (Transparent Routing)：透過全新的軟體轉譯層，系統能自動將矩陣運算導向 Rubin，將時序敏感的生成任務轉譯為 LPU 指令集。對開發者而言，這是一套完全自動化的透明系統。

4. 記憶體金字塔：BlueField-4 與 ICMS 技術

NVIDIA 透過 ICMS (Inference Context Memory Storage) 建立了四層記憶體池：

BlueField-4 DPU (數據管家)：作為 AI 原生存儲的心臟，管理跨機架的數據搬運與 KV Cache 的智慧存放。
分層記憶體體系：SRAM 跟 LPU 提供 150 TB/s 的超大頻寬跟高速。HBM4 跟GPU 提供深度邏輯推理。 Vera CPU 與 BlueField-4 將少用 KV Cache 存放在低成本的DDR5 / NAND 等，實現記憶體又快、又大、又便宜。

5. 對決：專用ASIC vs. Software-defined AI-native system

6. 結論：一場蓄謀已久的降維打擊

NVIDIA 從 2024 年底就開始秘密布局的 Vera Rubin + Groq 3 架構，預計將在 2026 下半年展現了其真正的威力。

NVIDIA 的策略非常明確：是用「軟體定義」的靈活與「系統級整合」的精確，去模擬 ASIC 的高效。 這讓 NVIDIA 既保有了 GPU 的通用生態，又獲得了足以比擬 ASIC 的反應速度與更低成本優勢。

這也符合老黃一貫說的：「買越多，省越多」

留言

《無時效備份沙龍》

5會員

106內容數

混合工程術語與都市情感，有種「我知道這些也許沒用，但還是想保存下來」的情緒。

《無時效備份沙龍》的其他內容

2026/02/27

馬斯克的星際文明夢

SpaceX 向 FCC 提交的百萬顆衛星計畫，揭示其將 AI 算力、軌道能源與月球工業化結合的宏大願景。包括 SpaceX 近期規劃的軌道數據中心、核心技術 Starship 的關鍵作用、Elon Musk 對太空能源及 AI 的看法，並提到月球 ISRU 和垂直整合的可能。

2026/02/27

馬斯克的星際文明夢

2026/02/11

邁向星際文明的第一步：月球重工與軌道算力雲

AI 算力需求指數級成長，能源與散熱問題逼近地球極限。Elon Musk提出包含月球ISRU、軌道太陽能與軌道數據中心，以及其對邁向卡爾達肖夫II型文明的意義。

2026/02/11

邁向星際文明的第一步：月球重工與軌道算力雲

2026/02/11

AI 資本巨額支出與台灣硬體供應鏈

Google、Amazon、Microsoft 與 Meta 等科技巨頭在 AI 基礎建設上龐大資本支出，對 AI 硬體供應鏈的影響，從規模的質變、B2B 基礎建設的特性、潛在的獲利風險，以及 AI 硬體成為獲利新藍海等角度，剖析 AI 時代產業權力分配的重塑，並預測未來趨勢。

2026/02/11

AI 資本巨額支出與台灣硬體供應鏈

看更多

你可能也想看

k.S的量化投資

【深度解讀】打破百萬門檻迷思：小資族如何透過「債券孳息」打造優於定存的美元現金流？

債券投資，不只是高資產族群的遊戲在傳統的投資觀念中，海外債券（Overseas Bonds）常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻，讓許多想尋求穩定配息的小資族望而卻步。然而，在股市波動劇烈的環境下，尋求穩定的美元現金流與被動收入成為許多投資人

#玉山證券#海外債券#債券孳息

2026/02/06

k.S的量化投資

【深度解讀】打破百萬門檻迷思：小資族如何透過「債券孳息」打造優於定存的美元現金流？

#玉山證券#海外債券#債券孳息

2026/02/06

Jorge2006的沙龍

玉山證券小額債—川普又來報明牌啦!

透過川普的近期債券交易揭露，探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響，以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺，如何讓小資族也能低門檻參與海外債券市場，實現「低門檻、低波動、固定收益」的務實投資方式。

2026/03/13

2026/03/13

拒絕梭哈投資，建立財務餘裕｜玉山證券小額債為你打造資產穩定錨

解析「債券」如何成為資產配置中的穩定錨，提供低風險高回報的投資選項。藉由玉山證券的低門檻債券服務，投資者可輕鬆入手，平衡風險並穩定財務。

#投資#資產配置#債券投資

2026/03/13

CK On Board

拒絕梭哈投資，建立財務餘裕｜玉山證券小額債為你打造資產穩定錨

#投資#資產配置#債券投資

2026/03/13

小芝女看天下

任何人都能投資！用玉山證券小額債替自己存旅費：1,000 美元就能開始的穩健理財法

相較於波動較大的股票，債券能提供固定現金流，而玉山證券推出的小額債，更以1000 美元的低門檻，讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色，大幅降低投資難度，對於希望分散風險、建立穩定現金流的人來說，玉山小額債是一個值得嘗試的理財起點。

#玉山小額債#小額債#玉山證券

2026/02/12