今年 GTC 2024,NVIDIA 發表的 Blackwell 架構核心,也就是所謂的 GB300 GPU,基本上是接續 H100(Hopper 架構)的下一代產品。以系統的角度來看,這一代不只是單純的效能升級,更是從架構層面開始做根本性調整,有幾個關鍵變化值得注意。
首先,GB300 是一顆 chiplet 架構的 GPU。也就是說,它不再像 H100 那樣是一顆大單die,而是採用 multi-die 設計,主要由兩顆 compute die(B100)組成,中間透過 Ultra-High Bandwidth Die-to-Die Interconnect 相連接。這表示 NVIDIA 從單晶片走向模組化邏輯,可能是在晶圓尺寸與良率之間做了取捨。其次,GB300 本身支援 HBM3e 記憶體,最多可以接到 192GB 的容量,這對於處理大模型(尤其是LLM)會有非常大的幫助。而它內建的第六代 NVLink,也在做 die-to-die 與 GPU-to-GPU 通訊時提供更高頻寬與更低延遲,這點對我們在主板設計上要考慮的 routing 與物理 layout 是非常直接的挑戰。總結一下,這篇短文會先聚焦在 GB300 這顆核心 GPU 的設計邏輯,包括它的 chiplet 結構、記憶體通道、互連設計等等,再逐步延伸到它在模組(如GB200)、伺服器、資料中心等應用的落實情況。畢竟對我們做系統的人來說,你只有真正搞懂核心元件,才談得上做出相容穩定又高效能的系統。
講到 GB300 的架構,我們第一個會注意到的就是——這已經不是一顆單一大Die的GPU了。這代NVIDIA直接走上了 chiplet(多晶粒)設計路線,這點對我們做系統端、尤其是server主板設計的RD來說,代表非常多「背後藏著的麻煩」跟「換來的性能提升」。
GB300 採用的是 TSMC 的 4NP 製程(基本上是 4N 的優化版本),搭配 NVIDIA 的 CoWoS-L 封裝技術。不同於 H100 的單一大晶粒設計,GB300 是由兩顆 Compute Die(B100 Die) 所組成,這兩顆die之間透過內部的高頻寬互連橋接起來。
📌 CoWoS-L 是什麼?
這是一種類似英特爾EMIB的 2.5D 封裝方式,允許多個 die 坐在同一個中介層(interposer)上共享高速連接資源。這對於高頻訊號完整性、routing 長度與熱分布是相當關鍵的。
從目前公開資訊推估,GB300 每顆 die 內部搭載了全新的 Streaming Multiprocessor(SM)模組設計,而且強化了 Transformer Engine 的計算能力。這代的 Tensor Core 進一步優化了對 FP8 的支援,也內建更多 Matrix Multiply Acceleration(MMA)路徑。
這代表我們在設計 PCB 或模組時,不用處理兩個die之間的實體連接線路,但系統端要預期其內部資料流會有某些潛在同步 bottleneck。
GB300 搭配的是新一代 HBM3e,頻寬高達每顆記憶體3.2 Tbps,最高支援到 6個堆疊通道(stack),單卡可達到 192GB 容量。
這意味著板子上的 HBM layout 設計會更吃空間,與散熱模組的干涉可能性更高,不處理好會直接影響熱點集中與長時間功耗表現。
GB300內建的第四代NVLink,單一GPU就支援最多 18個NVLink通道,總頻寬超過 1.8TB/s。對於未來多卡系統來說,這個升級非常關鍵:
這也解釋為什麼 NVIDIA 要推出獨立的 NVLink Switch Die(在GB200模組裡),來整合大規模 GPU mesh。系統廠要導入這種解決方案,等於不只是要有NVLink bridge,還得搞定switch fabric layout與熱設計平衡。