vocus logo

方格子 vocus

從 GPU 到 AI 系統定義:NVIDIA 瓦解 CSP 自研晶片的「降維打擊」

更新 發佈閱讀 9 分鐘

Nvidia 近幾年的產品路線、軟體策略與系統佈局,正在持續的模糊並擴大「硬體邊界」,將自身角色推進到一個更上游的位置:「包含了 memory pooling、機架間的高速互聯、CUDA 軟體的慣性等,把使用者綁在Nvidia 的生態.」

這也是為了回應各大 CSP 自製 AI ASIC 的趨勢.

在 2026 年這個時間點,CSP 的自研晶片(如 Google TPU v7、AWS Trainium 3、Meta MTIA v3等)在在特定推論場景中已展現出明顯的成本與能效優勢。。

由於各家 CSP 的服務重心不同;例如 Google 側重搜尋與廣告推薦、AWS 側重企業級 API 服務、Meta 側重社群影像過濾,所以各家 CSP 對於推論晶片「延遲 vs. 吞吐量」的優先級完全不同;導致市場上很難出現一顆「通吃所有 CSP 」的推論晶片。

NVIDIA 意識到如果只比「單顆晶片的推論性價比跟能效比」,通用 GPU 很難贏過針對特定模型(如 Llama 或 Gemini)或特定應用設計的專用 ASIC。

對此 NVIDIA 也有所因應:

⚡️推出專用「推論戰鬥版」GPU (Rubin CPX)

面對 CSP 強調的「低成本推論」,NVIDIA 推出了推論專用的 Rubin CPX

  • 針對痛點: CSP 的 ASIC 強在「大規模部署」,但 NVIDIA 發現「百萬代幣(1M+ Tokens)」的超長文本處理中,Context Phase(上下文預處理) 非常吃運算。
  • 應對戰術: CPX 放棄了昂貴的 HBM,改用 GDDR7。這讓 NVIDIA 能大幅降低單卡售價,並在推論的「上下文處理」階段直接槓上 ASIC.

    Rubin CPX 仍受限於通用 GPU 架構,成本跟能效改善有限.

⚡️解決記憶體擴充的成本問題

為從另一角度解決成本問題,Nvidia 推動 ICMSP / HBF / CXL / memory pooling 等技術,從 KV Cache 的角度切入讓記憶體擴充成本更低.

raw-image

NVIDIA 推出了 ICMSP (Inference Context Memory Storage Platform);透過 BlueField-4 DPU 直接管理記憶體與 Flash。

當 CSP 的 ASIC 還在煩惱如何擴張 KV Cache 記憶體容量時,NVIDIA 已經透過 ICMSP讓 GPU 可以直接「借用」機架網路上的快閃記憶體; 這讓 NVIDIA 整體的推論成本更具優勢。

要理解 ICMSP,首先要了解 KV Cache:

  • 什麼是 KV Cache? 當你跟 AI 聊天時,它必須「記住」之前的對話(Context)。這些記憶會轉化為大量的 Keys 和 Values 存放在 GPU 記憶體中。當對話越長 KV Cache 就越肥,昂貴的 HBM 記憶體很快就會被塞滿。
  • CSP ASIC 的困境: 大多數 CSP 自研晶片-雖然算力強、能校高,但它們的記憶體架構通常是固定的。遇到超長文本或多代理人(Multi-agent)同時在線,它們還是得面臨「擴充記憶體就得買更多晶片」的高長本循環。

NVIDIA 透過 BlueField-4 DPU 推出 ICMSP,創造了一個「記憶體緩衝區」:

  • 「借用」網路上的快閃記憶體: 過往 KV Cache 只能放在 GPU 的 HBM 或 CPU 的 DRAM。NVIDIA 現在定義了一套標準:G3.5 層(Ethernet-attached Flash Tier)。 透過 BlueField-4 DPU 的硬體加速,GPU 讀寫「網路另一端的快閃記憶體」足夠快(透過 RDMA 技術)。
  • 記憶體池化(Memory Pooling): 這讓整個機架(Rack)的 Flash 變成一個「超大 memory pool」;當 GPU 處理一個超長對話時可以直接透過 DPU 存取這 pool。
  • 管理效率高 : 傳統儲存要經過 CPU 處理,這會產生巨大的「Metadata」開銷和延遲。但 BlueField-4 是專為 AI 資料存取設計的處理器能直接管理這些 KV Cache 的放置與檢索,繞過主 CPU 將處理的 Token 數提升數倍且能效更高。

NVIDIA 在 Rubin 架構中更加積極推 CXL 3.0 來解決推論負載不均(有的閒置、有的記憶體爆滿)導致的 TCO 浪費:

  • 擴展性 (Expansion): 推論時,某些階段(如 Prefill)需要高頻寬HBM,但某些階段(如 Decode)更需要大容量;CXL 3.0 允許 GPU 透過 PCIe 6.0 存取外部低成本的 DDR5 記憶體池
  • 打破「記憶體孤島」: 透過 CXL,一組伺服器內的記憶體可以被動態分配。這意味著如果某顆 GPU 正在處理超長對話,它可以「借用」隔壁閒置 GPU 的記憶體資源,這就是 Memory Pooling

還有 NVIDIA 及其快閃記憶體合作夥伴正在研發的 HBF (High Bandwidth Flash),能夠填補推論所需的超大容量記憶體這塊;HBF 能以極低成本運行兆級參數模型所需要的 TB 量級儲存空間.

未來 HBM 放運算資料,Context 就透過 ICMSP 跟放 HBF,這種分層存儲(Tiered Storage)是壓低 TCO 的關鍵。

這意味著即使 CSP 自研 ASIC 在算力能效跟成本贏過 NVIDIA;但只要「買 NVIDIA 系統整套記憶體管理 + HBF」比「自己設計 ASIC+買一堆晶片堆記憶體」更划算時,CSP 垂直整合自研 ASIC 的動機就會被大幅降低。

⚡️開放互連標準 (NVLink Fusion)

面對 CSP 想要垂直整合,NVIDIA 選擇局部開放 NVLink

  • 既然 CSP 堅決要自己做 ASIC,NVIDIA 索性允許客戶將 NVLink 技術 整合進他們的自研 ASIC 中。
  • 是為了防止 CSP 逃離 NVIDIA 的機架生態。只要 ASIC 跑的是 NVLink 協議,就得繼續買 NVIDIA 的 NVSwitch 和網絡設備,得相容 NVIDIA 的機架拓樸架構。
  • 這種「協議層開放、系統層綁定」的策略,使 NVIDIA 能在不正面對抗 CSP 的情況下,持續掌握機架級高速互連的實際標準。

總結:

針對未來推論可能走向碎片化、更多CSP自研ASIC的趨勢.

NVIDIA 的回應是,將「推論」從單純計算轉化為一場「含擴記憶體管理與高速互連」的生態圈。只要 NVIDIA 透過 HBF / ICMSP / CXL / memory pooling 等技術,從 KV Cache 的角度切入讓記憶體擴充成本更低,還有開放 NVLink Fusion 把客戶繼續綁在 NVIDIA 定義的記憶體跟高速互聯系統層;再加上原本 CUDA 軟體,Nvidia 這種半開放+半綁定的 AI 系統架構制定,讓 CSP 盡可能的留在Nvidia 定義的 AI 系統裡.

可以預期 CSP 陣營,也將會針對自家的大語言模型及應用進行類似的記憶體優化,並且透過從軟體到演算法的垂直整合來追求進一步的優勢.

而 NVIDIA 與之對應會積極跟加快推動 HBF / ICMSP / CXL 等成為產業標準,讓所有儲存廠商(三星、海力士、美光等)都圍繞著其標準開發產品(如支援 ICMSP 的 HBF),透過產業規模經濟來壓低成本.

這也連帶影響這波記憶體飆漲,也是因為 NVIDIA 透過系統規範(ICMSP/CXL)把原本不屬於 AI 計算核心的 DDR 與 Flash 通通拉進了「廣義 AI 記憶體」的範疇.


留言
avatar-img
《無時效備份沙龍》
5會員
105內容數
混合工程術語與都市情感,有種「我知道這些也許沒用,但還是想保存下來」的情緒。
2025/11/12
本文探討老馬在推文提到的 E2E 的挑戰-「監督赤字」問題,並解釋 VLM(視覺語言模型)、VLA(視覺語言行動模型)及世界模型(World Model)如何逐步演進以解決此挑戰,以及自駕車算力需求不斷攀升的「算力深淵」。
Thumbnail
2025/11/12
本文探討老馬在推文提到的 E2E 的挑戰-「監督赤字」問題,並解釋 VLM(視覺語言模型)、VLA(視覺語言行動模型)及世界模型(World Model)如何逐步演進以解決此挑戰,以及自駕車算力需求不斷攀升的「算力深淵」。
Thumbnail
2025/10/08
臺灣ODM/OEM代工廠如何透過「資本效率哲學」,在毛利率不高的情況下,實現超過25%的驚人ROE。從三個層次:財務邏輯、策略邏輯及供應鏈優勢,層層解構其經營模式,包含高資產週轉率、精準現金流管理、高產能利用率、客戶信任、供應鏈整合力及嚴格的現金流紀律,最終達成高ROE的成就。
2025/10/08
臺灣ODM/OEM代工廠如何透過「資本效率哲學」,在毛利率不高的情況下,實現超過25%的驚人ROE。從三個層次:財務邏輯、策略邏輯及供應鏈優勢,層層解構其經營模式,包含高資產週轉率、精準現金流管理、高產能利用率、客戶信任、供應鏈整合力及嚴格的現金流紀律,最終達成高ROE的成就。
2025/10/07
OpenAI 如何透過創新的資本操作,聯合 Oracle、NVIDIA 和 AMD 建立一個龐大的「AI 資本永動機」。透過巨額的雲端運算合約、GPU 採購與再投資,OpenAI 不僅鞏固其在 AI 模型的領先地位,還拓展到 AI Agent 平臺,並成功將供應商轉化為生態系夥伴...
Thumbnail
2025/10/07
OpenAI 如何透過創新的資本操作,聯合 Oracle、NVIDIA 和 AMD 建立一個龐大的「AI 資本永動機」。透過巨額的雲端運算合約、GPU 採購與再投資,OpenAI 不僅鞏固其在 AI 模型的領先地位,還拓展到 AI Agent 平臺,並成功將供應商轉化為生態系夥伴...
Thumbnail
看更多
你可能也想看
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文深入比較了 Google TPU v5p 和 NVIDIA H100 在訓練超大規模語言模型 (LLM) 方面的優劣勢,涵蓋設計哲學、核心架構、互連方式、訓練吞吐量、軟體生態、靈活性、成本效益及部署考量。文章最後根據具體應用場景,提供了 TPU v5p 和 H100 的選擇建議。
Thumbnail
本文深入比較了 Google TPU v5p 和 NVIDIA H100 在訓練超大規模語言模型 (LLM) 方面的優劣勢,涵蓋設計哲學、核心架構、互連方式、訓練吞吐量、軟體生態、靈活性、成本效益及部署考量。文章最後根據具體應用場景,提供了 TPU v5p 和 H100 的選擇建議。
Thumbnail
這一兩年,AI 帶來的產業劇變速度之快,讓整個科技界猶如被按下「加速鍵」。從 PCB、散熱技術、機櫃軌道、交換器到伺服器供應鏈,短短時間內全都被 AI 推著往前走。而現在,這股巨浪正式推向了另一個過去不太起眼的主角——記憶體 其中,高頻寬記憶體(HBM)的全球缺料,更像是一把點燃產業鏈的野火;一旦
Thumbnail
這一兩年,AI 帶來的產業劇變速度之快,讓整個科技界猶如被按下「加速鍵」。從 PCB、散熱技術、機櫃軌道、交換器到伺服器供應鏈,短短時間內全都被 AI 推著往前走。而現在,這股巨浪正式推向了另一個過去不太起眼的主角——記憶體 其中,高頻寬記憶體(HBM)的全球缺料,更像是一把點燃產業鏈的野火;一旦
Thumbnail
HBM4 相較 HBM3 帶寬翻倍、效能提升,但成本高出六至七成。這場轉變讓 GPU 成本重心從算力移向記憶體,深刻改變 AI 經濟學。
Thumbnail
HBM4 相較 HBM3 帶寬翻倍、效能提升,但成本高出六至七成。這場轉變讓 GPU 成本重心從算力移向記憶體,深刻改變 AI 經濟學。
Thumbnail
📢 NVIDIA($NVDA-US)在推出Blackwell系列的B200與GB200僅半年後,迅速推出全新升級版的B300與GB300,這次升級不僅是性能提升(尤其針對AI推論模型進行性能優化),更是一場供應鏈的變革,其中也產生供應鏈中股票的受惠者、受害者。
Thumbnail
📢 NVIDIA($NVDA-US)在推出Blackwell系列的B200與GB200僅半年後,迅速推出全新升級版的B300與GB300,這次升級不僅是性能提升(尤其針對AI推論模型進行性能優化),更是一場供應鏈的變革,其中也產生供應鏈中股票的受惠者、受害者。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News