看完本次的 Nvidia 2025 GTC 後寫了一篇報告,聊一下想法:
https://vocus.cc/article/67dab963fd89780001f55b52
1. GB200 的需求應該很大一部份轉到了 GB300
上述內容中有提到,目前四大 CSP 今年對於 Blackwel l的採購量已經達到 360 萬顆,但 Nvidia 並沒有揭露 B200/300 的比例與出貨時間,我認為這是因為一旦公布了比例或是出貨時間,都可以立即被市場發現 GB200 需求都遞延到 GB300 了。
因為一來 GB300 相較於 GB200 在 NIC、主機板設計細節上都下放給了客戶端,所以對於 CSP 業者而言會有更多彈性。
二來 GB300 在效能與 HBM 容量也都優於 GB200,且 GB200 從年初要量產延到現在才放量,然後下半年可能 25Q3 時 GB300 就出貨了,那正常人都會想稍微等一下,花同樣的錢便能獲得更好的 TCO 與性能,所以這樣的推測非常合情合理。
而這麼一來,由於 CSP 業者在導入 GB300 時擁有更高的靈活度,這對於 ASIC 而言將會是實質的利多,像是在 Marvell 的季報解析中,我們可以發現公司揭露最近獲得了多個客製化 NIC,便能夠導向 CSP 端對於自身資料中心的設計與網通架構客製化的意願與需求逐漸提升。
2. 單一叢集「巨大化」的發展路徑明確
過去的雲端服務會使用「地理分散」或「多雲串接」的方式來分配 GPU,也就是將數據中心分散在世界各個不同的地方,透過雲端的方式去做串接。不過 Nvidia 本次在 GTC 提出的 NVL144 / NVL576 的架構,背後正是為了支援更大的單點 AI 資料中心,也就是為了超大規模 AI 訓練的需求。
像是過去 xAI 便示範過,在單一資料中心內 GPU 叢集越大,AI 計算效果越好,這與 Nvidia 的 NVL576 路線圖完全吻合。
而若網通要相應進行升級,那麼便需要朝向高頻寬互聯、低延遲交換機、SmartNIC 等方向,像是需要大量 InfiniBand、800G / 1.6T 交換機,甚至更先進的 CPO 解決方案,以保證 GPU 間通訊效能,所以對於提供相關解決方案的廠商來說,絕對都存在著長線的需求。