Nvidia 近幾年的產品路線、軟體策略與系統佈局,正在持續的模糊並擴大「硬體邊界」,將自身角色推進到一個更上游的位置:「包含了 memory pooling、機架間的高速互聯、CUDA 軟體的慣性等,把使用者綁在Nvidia 的生態.」
這也是為了回應各大 CSP 自製 AI ASIC 的趨勢.
在 2026 年這個時間點,CSP 的自研晶片(如 Google TPU v7、AWS Trainium 3、Meta MTIA v3等)在在特定推論場景中已展現出明顯的成本與能效優勢。。由於各家 CSP 的服務重心不同;例如 Google 側重搜尋與廣告推薦、AWS 側重企業級 API 服務、Meta 側重社群影像過濾,所以各家 CSP 對於推論晶片「延遲 vs. 吞吐量」的優先級完全不同;導致市場上很難出現一顆「通吃所有 CSP 」的推論晶片。
NVIDIA 意識到如果只比「單顆晶片的推論性價比跟能效比」,通用 GPU 很難贏過針對特定模型(如 Llama 或 Gemini)或特定應用設計的專用 ASIC。
對此 NVIDIA 也有所因應:
⚡️推出專用「推論戰鬥版」GPU (Rubin CPX)
面對 CSP 強調的「低成本推論」,NVIDIA 推出了推論專用的 Rubin CPX。
- 針對痛點: CSP 的 ASIC 強在「大規模部署」,但 NVIDIA 發現「百萬代幣(1M+ Tokens)」的超長文本處理中,Context Phase(上下文預處理) 非常吃運算。
- 應對戰術: CPX 放棄了昂貴的 HBM,改用 GDDR7。這讓 NVIDIA 能大幅降低單卡售價,並在推論的「上下文處理」階段直接槓上 ASIC.
Rubin CPX 仍受限於通用 GPU 架構,成本跟能效改善有限.
⚡️解決記憶體擴充的成本問題
為從另一角度解決成本問題,Nvidia 推動 ICMSP / HBF / CXL / memory pooling 等技術,從 KV Cache 的角度切入讓記憶體擴充成本更低.

NVIDIA 推出了 ICMSP (Inference Context Memory Storage Platform);透過 BlueField-4 DPU 直接管理記憶體與 Flash。
當 CSP 的 ASIC 還在煩惱如何擴張 KV Cache 記憶體容量時,NVIDIA 已經透過 ICMSP讓 GPU 可以直接「借用」機架網路上的快閃記憶體; 這讓 NVIDIA 整體的推論成本更具優勢。
要理解 ICMSP,首先要了解 KV Cache:
- 什麼是 KV Cache? 當你跟 AI 聊天時,它必須「記住」之前的對話(Context)。這些記憶會轉化為大量的 Keys 和 Values 存放在 GPU 記憶體中。當對話越長 KV Cache 就越肥,昂貴的 HBM 記憶體很快就會被塞滿。
- CSP ASIC 的困境: 大多數 CSP 自研晶片-雖然算力強、能校高,但它們的記憶體架構通常是固定的。遇到超長文本或多代理人(Multi-agent)同時在線,它們還是得面臨「擴充記憶體就得買更多晶片」的高長本循環。
NVIDIA 透過 BlueField-4 DPU 推出 ICMSP,創造了一個「記憶體緩衝區」:
- 「借用」網路上的快閃記憶體: 過往 KV Cache 只能放在 GPU 的 HBM 或 CPU 的 DRAM。NVIDIA 現在定義了一套標準:G3.5 層(Ethernet-attached Flash Tier)。 透過 BlueField-4 DPU 的硬體加速,GPU 讀寫「網路另一端的快閃記憶體」足夠快(透過 RDMA 技術)。
- 記憶體池化(Memory Pooling): 這讓整個機架(Rack)的 Flash 變成一個「超大 memory pool」;當 GPU 處理一個超長對話時可以直接透過 DPU 存取這 pool。
- 管理效率高 : 傳統儲存要經過 CPU 處理,這會產生巨大的「Metadata」開銷和延遲。但 BlueField-4 是專為 AI 資料存取設計的處理器能直接管理這些 KV Cache 的放置與檢索,繞過主 CPU 將處理的 Token 數提升數倍且能效更高。
NVIDIA 在 Rubin 架構中更加積極推 CXL 3.0 來解決推論負載不均(有的閒置、有的記憶體爆滿)導致的 TCO 浪費:
- 擴展性 (Expansion): 推論時,某些階段(如 Prefill)需要高頻寬HBM,但某些階段(如 Decode)更需要大容量;CXL 3.0 允許 GPU 透過 PCIe 6.0 存取外部低成本的 DDR5 記憶體池。
- 打破「記憶體孤島」: 透過 CXL,一組伺服器內的記憶體可以被動態分配。這意味著如果某顆 GPU 正在處理超長對話,它可以「借用」隔壁閒置 GPU 的記憶體資源,這就是 Memory Pooling。
還有 NVIDIA 及其快閃記憶體合作夥伴正在研發的 HBF (High Bandwidth Flash),能夠填補推論所需的超大容量記憶體這塊;HBF 能以極低成本運行兆級參數模型所需要的 TB 量級儲存空間.
未來 HBM 放運算資料,Context 就透過 ICMSP 跟放 HBF,這種分層存儲(Tiered Storage)是壓低 TCO 的關鍵。
這意味著即使 CSP 自研 ASIC 在算力能效跟成本贏過 NVIDIA;但只要「買 NVIDIA 系統整套記憶體管理 + HBF」比「自己設計 ASIC+買一堆晶片堆記憶體」更划算時,CSP 垂直整合自研 ASIC 的動機就會被大幅降低。
⚡️開放互連標準 (NVLink Fusion)
面對 CSP 想要垂直整合,NVIDIA 選擇局部開放 NVLink。
- 既然 CSP 堅決要自己做 ASIC,NVIDIA 索性允許客戶將 NVLink 技術 整合進他們的自研 ASIC 中。
- 是為了防止 CSP 逃離 NVIDIA 的機架生態。只要 ASIC 跑的是 NVLink 協議,就得繼續買 NVIDIA 的 NVSwitch 和網絡設備,得相容 NVIDIA 的機架拓樸架構。
- 這種「協議層開放、系統層綁定」的策略,使 NVIDIA 能在不正面對抗 CSP 的情況下,持續掌握機架級高速互連的實際標準。
總結:
針對未來推論可能走向碎片化、更多CSP自研ASIC的趨勢.
NVIDIA 的回應是,將「推論」從單純計算轉化為一場「含擴記憶體管理與高速互連」的生態圈。只要 NVIDIA 透過 HBF / ICMSP / CXL / memory pooling 等技術,從 KV Cache 的角度切入讓記憶體擴充成本更低,還有開放 NVLink Fusion 把客戶繼續綁在 NVIDIA 定義的記憶體跟高速互聯系統層;再加上原本 CUDA 軟體,Nvidia 這種半開放+半綁定的 AI 系統架構制定,讓 CSP 盡可能的留在Nvidia 定義的 AI 系統裡.
可以預期 CSP 陣營,也將會針對自家的大語言模型及應用進行類似的記憶體優化,並且透過從軟體到演算法的垂直整合來追求進一步的優勢.
而 NVIDIA 與之對應會積極跟加快推動 HBF / ICMSP / CXL 等成為產業標準,讓所有儲存廠商(三星、海力士、美光等)都圍繞著其標準開發產品(如支援 ICMSP 的 HBF),透過產業規模經濟來壓低成本.
這也連帶影響這波記憶體飆漲,也是因為 NVIDIA 透過系統規範(ICMSP/CXL)把原本不屬於 AI 計算核心的 DDR 與 Flash 通通拉進了「廣義 AI 記憶體」的範疇.

