從 GPU 到 AI 系統定義:NVIDIA 瓦解 CSP 自研晶片的「降維打擊」

更新 發佈閱讀 9 分鐘

Nvidia 近幾年的產品路線、軟體策略與系統佈局,正在持續的模糊並擴大「硬體邊界」,將自身角色推進到一個更上游的位置:「包含了 memory pooling、機架間的高速互聯、CUDA 軟體的慣性等,把使用者綁在Nvidia 的生態.」

這也是為了回應各大 CSP 自製 AI ASIC 的趨勢.

在 2026 年這個時間點,CSP 的自研晶片(如 Google TPU v7、AWS Trainium 3、Meta MTIA v3等)在在特定推論場景中已展現出明顯的成本與能效優勢。。

由於各家 CSP 的服務重心不同;例如 Google 側重搜尋與廣告推薦、AWS 側重企業級 API 服務、Meta 側重社群影像過濾,所以各家 CSP 對於推論晶片「延遲 vs. 吞吐量」的優先級完全不同;導致市場上很難出現一顆「通吃所有 CSP 」的推論晶片。

NVIDIA 意識到如果只比「單顆晶片的推論性價比跟能效比」,通用 GPU 很難贏過針對特定模型(如 Llama 或 Gemini)或特定應用設計的專用 ASIC。

對此 NVIDIA 也有所因應:

⚡️推出專用「推論戰鬥版」GPU (Rubin CPX)

面對 CSP 強調的「低成本推論」,NVIDIA 推出了推論專用的 Rubin CPX

  • 針對痛點: CSP 的 ASIC 強在「大規模部署」,但 NVIDIA 發現「百萬代幣(1M+ Tokens)」的超長文本處理中,Context Phase(上下文預處理) 非常吃運算。
  • 應對戰術: CPX 放棄了昂貴的 HBM,改用 GDDR7。這讓 NVIDIA 能大幅降低單卡售價,並在推論的「上下文處理」階段直接槓上 ASIC.

    Rubin CPX 仍受限於通用 GPU 架構,成本跟能效改善有限.

⚡️解決記憶體擴充的成本問題

為從另一角度解決成本問題,Nvidia 推動 ICMSP / HBF / CXL / memory pooling 等技術,從 KV Cache 的角度切入讓記憶體擴充成本更低.

raw-image

NVIDIA 推出了 ICMSP (Inference Context Memory Storage Platform);透過 BlueField-4 DPU 直接管理記憶體與 Flash。

當 CSP 的 ASIC 還在煩惱如何擴張 KV Cache 記憶體容量時,NVIDIA 已經透過 ICMSP讓 GPU 可以直接「借用」機架網路上的快閃記憶體; 這讓 NVIDIA 整體的推論成本更具優勢。

要理解 ICMSP,首先要了解 KV Cache:

  • 什麼是 KV Cache? 當你跟 AI 聊天時,它必須「記住」之前的對話(Context)。這些記憶會轉化為大量的 Keys 和 Values 存放在 GPU 記憶體中。當對話越長 KV Cache 就越肥,昂貴的 HBM 記憶體很快就會被塞滿。
  • CSP ASIC 的困境: 大多數 CSP 自研晶片-雖然算力強、能校高,但它們的記憶體架構通常是固定的。遇到超長文本或多代理人(Multi-agent)同時在線,它們還是得面臨「擴充記憶體就得買更多晶片」的高長本循環。

NVIDIA 透過 BlueField-4 DPU 推出 ICMSP,創造了一個「記憶體緩衝區」:

  • 「借用」網路上的快閃記憶體: 過往 KV Cache 只能放在 GPU 的 HBM 或 CPU 的 DRAM。NVIDIA 現在定義了一套標準:G3.5 層(Ethernet-attached Flash Tier)。 透過 BlueField-4 DPU 的硬體加速,GPU 讀寫「網路另一端的快閃記憶體」足夠快(透過 RDMA 技術)。
  • 記憶體池化(Memory Pooling): 這讓整個機架(Rack)的 Flash 變成一個「超大 memory pool」;當 GPU 處理一個超長對話時可以直接透過 DPU 存取這 pool。
  • 管理效率高 : 傳統儲存要經過 CPU 處理,這會產生巨大的「Metadata」開銷和延遲。但 BlueField-4 是專為 AI 資料存取設計的處理器能直接管理這些 KV Cache 的放置與檢索,繞過主 CPU 將處理的 Token 數提升數倍且能效更高。

NVIDIA 在 Rubin 架構中更加積極推 CXL 3.0 來解決推論負載不均(有的閒置、有的記憶體爆滿)導致的 TCO 浪費:

  • 擴展性 (Expansion): 推論時,某些階段(如 Prefill)需要高頻寬HBM,但某些階段(如 Decode)更需要大容量;CXL 3.0 允許 GPU 透過 PCIe 6.0 存取外部低成本的 DDR5 記憶體池
  • 打破「記憶體孤島」: 透過 CXL,一組伺服器內的記憶體可以被動態分配。這意味著如果某顆 GPU 正在處理超長對話,它可以「借用」隔壁閒置 GPU 的記憶體資源,這就是 Memory Pooling

還有 NVIDIA 及其快閃記憶體合作夥伴正在研發的 HBF (High Bandwidth Flash),能夠填補推論所需的超大容量記憶體這塊;HBF 能以極低成本運行兆級參數模型所需要的 TB 量級儲存空間.

未來 HBM 放運算資料,Context 就透過 ICMSP 跟放 HBF,這種分層存儲(Tiered Storage)是壓低 TCO 的關鍵。

這意味著即使 CSP 自研 ASIC 在算力能效跟成本贏過 NVIDIA;但只要「買 NVIDIA 系統整套記憶體管理 + HBF」比「自己設計 ASIC+買一堆晶片堆記憶體」更划算時,CSP 垂直整合自研 ASIC 的動機就會被大幅降低。

⚡️開放互連標準 (NVLink Fusion)

面對 CSP 想要垂直整合,NVIDIA 選擇局部開放 NVLink

  • 既然 CSP 堅決要自己做 ASIC,NVIDIA 索性允許客戶將 NVLink 技術 整合進他們的自研 ASIC 中。
  • 是為了防止 CSP 逃離 NVIDIA 的機架生態。只要 ASIC 跑的是 NVLink 協議,就得繼續買 NVIDIA 的 NVSwitch 和網絡設備,得相容 NVIDIA 的機架拓樸架構。
  • 這種「協議層開放、系統層綁定」的策略,使 NVIDIA 能在不正面對抗 CSP 的情況下,持續掌握機架級高速互連的實際標準。

總結:

針對未來推論可能走向碎片化、更多CSP自研ASIC的趨勢.

NVIDIA 的回應是,將「推論」從單純計算轉化為一場「含擴記憶體管理與高速互連」的生態圈。只要 NVIDIA 透過 HBF / ICMSP / CXL / memory pooling 等技術,從 KV Cache 的角度切入讓記憶體擴充成本更低,還有開放 NVLink Fusion 把客戶繼續綁在 NVIDIA 定義的記憶體跟高速互聯系統層;再加上原本 CUDA 軟體,Nvidia 這種半開放+半綁定的 AI 系統架構制定,讓 CSP 盡可能的留在Nvidia 定義的 AI 系統裡.

可以預期 CSP 陣營,也將會針對自家的大語言模型及應用進行類似的記憶體優化,並且透過從軟體到演算法的垂直整合來追求進一步的優勢.

而 NVIDIA 與之對應會積極跟加快推動 HBF / ICMSP / CXL 等成為產業標準,讓所有儲存廠商(三星、海力士、美光等)都圍繞著其標準開發產品(如支援 ICMSP 的 HBF),透過產業規模經濟來壓低成本.

這也連帶影響這波記憶體飆漲,也是因為 NVIDIA 透過系統規範(ICMSP/CXL)把原本不屬於 AI 計算核心的 DDR 與 Flash 通通拉進了「廣義 AI 記憶體」的範疇.


留言
avatar-img
《無時效備份沙龍》
5會員
98內容數
混合工程術語與都市情感,有種「我知道這些也許沒用,但還是想保存下來」的情緒。
2025/11/12
本文探討老馬在推文提到的 E2E 的挑戰-「監督赤字」問題,並解釋 VLM(視覺語言模型)、VLA(視覺語言行動模型)及世界模型(World Model)如何逐步演進以解決此挑戰,以及自駕車算力需求不斷攀升的「算力深淵」。
Thumbnail
2025/11/12
本文探討老馬在推文提到的 E2E 的挑戰-「監督赤字」問題,並解釋 VLM(視覺語言模型)、VLA(視覺語言行動模型)及世界模型(World Model)如何逐步演進以解決此挑戰,以及自駕車算力需求不斷攀升的「算力深淵」。
Thumbnail
2025/10/08
臺灣ODM/OEM代工廠如何透過「資本效率哲學」,在毛利率不高的情況下,實現超過25%的驚人ROE。從三個層次:財務邏輯、策略邏輯及供應鏈優勢,層層解構其經營模式,包含高資產週轉率、精準現金流管理、高產能利用率、客戶信任、供應鏈整合力及嚴格的現金流紀律,最終達成高ROE的成就。
2025/10/08
臺灣ODM/OEM代工廠如何透過「資本效率哲學」,在毛利率不高的情況下,實現超過25%的驚人ROE。從三個層次:財務邏輯、策略邏輯及供應鏈優勢,層層解構其經營模式,包含高資產週轉率、精準現金流管理、高產能利用率、客戶信任、供應鏈整合力及嚴格的現金流紀律,最終達成高ROE的成就。
2025/10/07
OpenAI 如何透過創新的資本操作,聯合 Oracle、NVIDIA 和 AMD 建立一個龐大的「AI 資本永動機」。透過巨額的雲端運算合約、GPU 採購與再投資,OpenAI 不僅鞏固其在 AI 模型的領先地位,還拓展到 AI Agent 平臺,並成功將供應商轉化為生態系夥伴...
Thumbnail
2025/10/07
OpenAI 如何透過創新的資本操作,聯合 Oracle、NVIDIA 和 AMD 建立一個龐大的「AI 資本永動機」。透過巨額的雲端運算合約、GPU 採購與再投資,OpenAI 不僅鞏固其在 AI 模型的領先地位,還拓展到 AI Agent 平臺,並成功將供應商轉化為生態系夥伴...
Thumbnail
看更多