若說 Jim Keller 是CPU時代最強的架構師;從設計最快的 RISC 架構處理器、設計 AMD Athlon(K7)效能超越英特爾、幫蘋果設計A4、A5處理器、回鍋 AMD 主導Zen架構設計;總是能從架構跟優化電路與指令集(ISA)榨出 CPU 的極致效能.
到 AI 世代,要找一個像 Jim Keller 同樣傳奇的,大概就是Groq 創辦人 Jonathan Ross.
最早故事要從十幾年前的 Google 說起.Google 時代:TPU 的「20% 計畫」推手
在 2013 年,當時才二十多歲在 Google 廣告部門工作的 Jonathan Ross,發現語音辨識團隊面臨算力嚴重不足的問題。
- 他以 Google 著名的「20% 自由時間」啟動了後來成為 TPU (Tensor Processing Unit) 的開發計畫。他設計並實作了第一代 TPU 。這顆晶片與傳統 CPU/GPU 最大不同在於其「收縮陣列(Systolic Array)」架構,是專門為矩陣乘法而優化。
- 成果: TPU 讓 Google 的運算效率提升了數十倍,支撐了從 Google 搜尋、街景文字辨識到後來的 AlphaGo 對弈。
- 這顆在 2013 年實作的 TPU 架構在「AI 推論效率」上領先了當時的 NVIDIA 數年.
- Jonathan Ross 也因此被視為現代 AI 專用硬體電路架構的早期關鍵人物。
Jonathan Ross 在 2016年離開 Google 創辦 Groq ,2025年底 NVIDIA 用兩百億跟 Groq 做技術授權並請他來 NVIDIA 做軟體架構首席顧問(一般認為是 NVIDIA 為了避免反托拉斯監管而做的類併購).
為何說 Jonathan Ross 是 AI 世代的架構跟技術大神呢?因為NVIDIA 最新發表的技術背後幾乎都有他的影子.
下面就來講講,NVIDIA 在 Software defined, AI natived 的四項核心技術:
1. 解構式推論 (Disaggregated Inference):硬體的物理分流
傳統架構中,一顆 GPU 必須同時負擔「理解(Prefill)」與「生成(Decode)」。這就像讓一台賽車同時載貨與競速,效率極低。
- 邏輯變革: 透過 Disaggregated 架構,系統將任務拆解。Rubin GPU 利用其強大的運算密度處理 Prefill;而原本屬於 ASIC 陣營的 Groq 3 LPU 技術則被整合進來,專門負責極速的 Decode。
- 軟體定義: 軟體層(編譯器)會根據模型當前的 Token 壓力,動態決定任務流向,讓硬體從「GPU全才」轉型為「GPU+LPU 分工高效」。
2. 確定性排程 (Deterministic Scheduling):軟體的時序靈魂
這是 Ross 帶給 NVIDIA 最具效益的創新。
傳統的通用處理器(無論 CPU/GPU)都依賴動態分支預測的硬體排程,這在處理 AI 推論時會產生不可預測的延遲,造成效率跟功耗問題.
- 傳統架構(非確定性): 過去是軟體向作業系統「請求」資源,硬體則像調度員一樣「盡力而為(Best Effort)」。這層層疊疊的 API 和驅動程式把軟體跟硬體切得很乾淨以方便開發,也避免跨平台的硬體相容問題等.
- 但 AI 特性就是有大量的數據搬運跟運算,而傳統把軟體硬體切開的架構是很沒效率的;傳統架構在AI運算跟資料搬運會充滿延遲與不確定性。
- NVIDIA 新架構(Deterministic Scheduling): 編譯器直接跳過中間層,編譯出來的數據資料要去符合 NVIDIA 硬體時序邏輯,還決定「什麼時候數據該出發送給誰」。
這種從編譯器端就已經決定數據資料怎麼送(精準到奈秒級),減少了延遲跟 cache 搬運等,讓 NVIDIA 的通用硬體擁有了接近 ASIC 的效能。
「確定性排程」一開始好像是為了配合 SRAM 極致的速度;但實際上這項技術解決了過去 Communication Overhead 問題,並實現了「實現跨 HBM/DDR5/NAND 資源協調」。
3. 全域記憶體虛擬化:打破 HBM 的實體邊界
過去 AI 最大的瓶頸始終是「昂貴的HBM記憶體」,無論是 ASIC 或 NVIDIA 通用 GPU 都是,這在推論應用爆發以及上下文內容都越來越大時候會是很大的成本負擔。
而「確定性排程」讓 HBM3e/HBM4 甚至 DDR5 這種較慢的記憶體,也能因為精確的時序控制,減少因「等待」產生的閒置,從而提升整體系統的記憶體吞吐量。
這讓讓「跨HBM/DDR5/NAN管理」成為可能.
- 如果沒有確定性: 當數據要從便宜的 NAND 搬回 HBM 時,如果排程不確定系統就會頻繁出現「Cache Miss」,導致卡頓。
- 如果有確定性: 系統(編譯器)預先知道模型在 50 毫秒後需要哪一段 KV Cache。它能精準地發出指令,讓數據從 NAND 提前出發,準時在需要的那一刻到達運算單元。
- 確定性排程是讓「跨HBM/DDR5/NAN管理」一樣流暢運行的關鍵技術。透過軟體確定性排程+BlueField-4 DPU,NVIDIA 實現了跨越 HBM、SRAM、DDR5 甚至 NAND 的記憶體調度。
4. ICMS (Inference Context Memory Storage):經濟效益
ICMS (Inference Context Memory Storage)是基於上面的技術,專為 AI 原生設計的「記憶管理平台」,它解決了 KV Cache 的冷熱數據問題:
- 自動分流: 系統會自動將核心權重與最活躍的對話保留在極速的 SRAM/HBM。
- 智能沉降: 將不活躍的上下文搬移到成本僅有幾分之一的 DDR5 或 NAND 中。
- 近乎無限的 Token: 這讓 NVIDIA 擺脫了過去「必須堆疊昂貴 HBM 才能增加對話長度」的限制,在不增加HBM成本的前提下,實現了 Token 長度的「近乎無限」。
總結:Jonathan Ross 就是神
當我們回顧這套體系,會發現 NVIDIA GTC 提到的 Software defined, AI-natived 的這些技術,背後幾乎都離不開 Jonathan Ross 的概念.
這確保了 NVIDIA 在 Vera Rubin 架構依然能以「低成本、高效率、低延遲」的三維優勢統治 AI 數據中心。
他是「確定性(Determinism)」的傳教士、「編譯器即架構」 的教父;將 AI 運算從「堆積GPU的暴力美學」轉向「從編譯器開始的精準秩序」的頭號操盤手.
挖角 Jonathan Ross 讓 NVIDIA 變成了一個沒人能看懂、也沒人能輕易仿製的「軟硬深度整合的黑盒子」,把戰線推到了編譯器這個競爭對手完全無法觸及的位置。

