方格子 vocus

從 GPU 到 AI 系統定義：NVIDIA 瓦解 CSP 自研晶片的「降維打擊」

2026/01/23 更新2026/01/23 發佈閱讀 9 分鐘

Nvidia 近幾年的產品路線、軟體策略與系統佈局，正在持續的模糊並擴大「硬體邊界」，將自身角色推進到一個更上游的位置：「包含了 memory pooling、機架間的高速互聯、CUDA 軟體的慣性等，把使用者綁在Nvidia 的生態．」

這也是為了回應各大 CSP 自製 AI ASIC 的趨勢.

在 2026 年這個時間點，CSP 的自研晶片（如 Google TPU v7、AWS Trainium 3、Meta MTIA v3等）在在特定推論場景中已展現出明顯的成本與能效優勢。。

由於各家 CSP 的服務重心不同；例如 Google 側重搜尋與廣告推薦、AWS 側重企業級 API 服務、Meta 側重社群影像過濾，所以各家 CSP 對於推論晶片「延遲 vs. 吞吐量」的優先級完全不同；導致市場上很難出現一顆「通吃所有 CSP 」的推論晶片。

NVIDIA 意識到如果只比「單顆晶片的推論性價比跟能效比」，通用 GPU 很難贏過針對特定模型（如 Llama 或 Gemini）或特定應用設計的專用 ASIC。

對此 NVIDIA 也有所因應：

⚡️推出專用「推論戰鬥版」GPU (Rubin CPX)

面對 CSP 強調的「低成本推論」，NVIDIA 推出了推論專用的 Rubin CPX。

針對痛點： CSP 的 ASIC 強在「大規模部署」，但 NVIDIA 發現「百萬代幣（1M+ Tokens）」的超長文本處理中，Context Phase（上下文預處理） 非常吃運算。
應對戰術： CPX 放棄了昂貴的 HBM，改用 GDDR7。這讓 NVIDIA 能大幅降低單卡售價，並在推論的「上下文處理」階段直接槓上 ASIC．

Rubin CPX 仍受限於通用 GPU 架構，成本跟能效改善有限．

⚡️解決記憶體擴充的成本問題

為從另一角度解決成本問題，Nvidia 推動 ICMSP / HBF / CXL / memory pooling 等技術，從 KV Cache 的角度切入讓記憶體擴充成本更低．

NVIDIA 推出了 ICMSP (Inference Context Memory Storage Platform)；透過 BlueField-4 DPU 直接管理記憶體與 Flash。

當 CSP 的 ASIC 還在煩惱如何擴張 KV Cache 記憶體容量時，NVIDIA 已經透過 ICMSP讓 GPU 可以直接「借用」機架網路上的快閃記憶體；這讓 NVIDIA 整體的推論成本更具優勢。

要理解 ICMSP，首先要了解 KV Cache：

什麼是 KV Cache？ 當你跟 AI 聊天時，它必須「記住」之前的對話（Context）。這些記憶會轉化為大量的 Keys 和 Values 存放在 GPU 記憶體中。當對話越長 KV Cache 就越肥，昂貴的 HBM 記憶體很快就會被塞滿。
CSP ASIC 的困境： 大多數 CSP 自研晶片－雖然算力強、能校高，但它們的記憶體架構通常是固定的。遇到超長文本或多代理人（Multi-agent）同時在線，它們還是得面臨「擴充記憶體就得買更多晶片」的高長本循環。

NVIDIA 透過 BlueField-4 DPU 推出 ICMSP，創造了一個「記憶體緩衝區」：

「借用」網路上的快閃記憶體： 過往 KV Cache 只能放在 GPU 的 HBM 或 CPU 的 DRAM。NVIDIA 現在定義了一套標準：G3.5 層（Ethernet-attached Flash Tier）。透過 BlueField-4 DPU 的硬體加速，GPU 讀寫「網路另一端的快閃記憶體」足夠快（透過 RDMA 技術）。
記憶體池化（Memory Pooling）： 這讓整個機架（Rack）的 Flash 變成一個「超大 memory pool」；當 GPU 處理一個超長對話時可以直接透過 DPU 存取這 pool。
管理效率高： 傳統儲存要經過 CPU 處理，這會產生巨大的「Metadata」開銷和延遲。但 BlueField-4 是專為 AI 資料存取設計的處理器能直接管理這些 KV Cache 的放置與檢索，繞過主 CPU 將處理的 Token 數提升數倍且能效更高。

NVIDIA 在 Rubin 架構中更加積極推 CXL 3.0 來解決推論負載不均（有的閒置、有的記憶體爆滿）導致的 TCO 浪費：

擴展性 (Expansion)： 推論時，某些階段（如 Prefill）需要高頻寬HBM，但某些階段（如 Decode）更需要大容量；CXL 3.0 允許 GPU 透過 PCIe 6.0 存取外部低成本的 DDR5 記憶體池。
打破「記憶體孤島」： 透過 CXL，一組伺服器內的記憶體可以被動態分配。這意味著如果某顆 GPU 正在處理超長對話，它可以「借用」隔壁閒置 GPU 的記憶體資源，這就是 Memory Pooling。

還有 NVIDIA 及其快閃記憶體合作夥伴正在研發的 HBF (High Bandwidth Flash)，能夠填補推論所需的超大容量記憶體這塊；HBF 能以極低成本運行兆級參數模型所需要的 TB 量級儲存空間．

未來 HBM 放運算資料，Context 就透過 ICMSP 跟放 HBF，這種分層存儲（Tiered Storage）是壓低 TCO 的關鍵。

這意味著即使 CSP 自研 ASIC 在算力能效跟成本贏過 NVIDIA；但只要「買 NVIDIA 系統整套記憶體管理＋ HBF」比「自己設計 ASIC＋買一堆晶片堆記憶體」更划算時，CSP 垂直整合自研 ASIC 的動機就會被大幅降低。

⚡️開放互連標準 (NVLink Fusion)

面對 CSP 想要垂直整合，NVIDIA 選擇局部開放 NVLink。

既然 CSP 堅決要自己做 ASIC，NVIDIA 索性允許客戶將 NVLink 技術 整合進他們的自研 ASIC 中。
是為了防止 CSP 逃離 NVIDIA 的機架生態。只要 ASIC 跑的是 NVLink 協議，就得繼續買 NVIDIA 的 NVSwitch 和網絡設備，得相容 NVIDIA 的機架拓樸架構。
這種「協議層開放、系統層綁定」的策略，使 NVIDIA 能在不正面對抗 CSP 的情況下，持續掌握機架級高速互連的實際標準。

總結：

針對未來推論可能走向碎片化、更多CSP自研ASIC的趨勢．

NVIDIA 的回應是，將「推論」從單純計算轉化為一場「含擴記憶體管理與高速互連」的生態圈。只要 NVIDIA 透過 HBF / ICMSP / CXL / memory pooling 等技術，從 KV Cache 的角度切入讓記憶體擴充成本更低，還有開放 NVLink Fusion 把客戶繼續綁在 NVIDIA 定義的記憶體跟高速互聯系統層；再加上原本 CUDA 軟體，Nvidia 這種半開放＋半綁定的 AI 系統架構制定，讓 CSP 盡可能的留在Nvidia 定義的 AI 系統裡．

可以預期 CSP 陣營，也將會針對自家的大語言模型及應用進行類似的記憶體優化，並且透過從軟體到演算法的垂直整合來追求進一步的優勢．

而 NVIDIA 與之對應會積極跟加快推動 HBF / ICMSP / CXL 等成為產業標準，讓所有儲存廠商（三星、海力士、美光等）都圍繞著其標準開發產品（如支援 ICMSP 的 HBF），透過產業規模經濟來壓低成本．

這也連帶影響這波記憶體飆漲，也是因為 NVIDIA 透過系統規範（ICMSP/CXL）把原本不屬於 AI 計算核心的 DDR 與 Flash 通通拉進了「廣義 AI 記憶體」的範疇.

留言

《無時效備份沙龍》

5會員

105內容數

混合工程術語與都市情感，有種「我知道這些也許沒用，但還是想保存下來」的情緒。

《無時效備份沙龍》的其他內容

2025/11/12

E2E 自駕的挑戰：從監督赤字到世界模型與算力深淵

本文探討老馬在推文提到的 E2E 的挑戰－「監督赤字」問題，並解釋 VLM（視覺語言模型）、VLA（視覺語言行動模型）及世界模型（World Model）如何逐步演進以解決此挑戰，以及自駕車算力需求不斷攀升的「算力深淵」。

2025/11/12

E2E 自駕的挑戰：從監督赤字到世界模型與算力深淵

2025/10/08

「低毛利、高 ROE」的代工行業

臺灣ODM/OEM代工廠如何透過「資本效率哲學」，在毛利率不高的情況下，實現超過25%的驚人ROE。從三個層次：財務邏輯、策略邏輯及供應鏈優勢，層層解構其經營模式，包含高資產週轉率、精準現金流管理、高產能利用率、客戶信任、供應鏈整合力及嚴格的現金流紀律，最終達成高ＲＯＥ的成就。

2025/10/08

「低毛利、高 ROE」的代工行業

2025/10/07

OpenAI 的資本永動機？

OpenAI 如何透過創新的資本操作，聯合 Oracle、NVIDIA 和 AMD 建立一個龐大的「AI 資本永動機」。透過巨額的雲端運算合約、GPU 採購與再投資，OpenAI 不僅鞏固其在 AI 模型的領先地位，還拓展到 AI Agent 平臺，並成功將供應商轉化為生態系夥伴...

2025/10/07

OpenAI 的資本永動機？

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11