今年 GTC 2024,NVIDIA 發表的 Blackwell 架構核心,也就是所謂的 GB300 GPU,基本上是接續 H100(Hopper 架構)的下一代產品。以系統的角度來看,這一代不只是單純的效能升級,更是從架構層面開始做根本性調整,有幾個關鍵變化值得注意。
首先,GB300 是一顆 chiplet 架構的 GPU。也就是說,它不再像 H100 那樣是一顆大單die,而是採用 multi-die 設計,主要由兩顆 compute die(B100)組成,中間透過 Ultra-High Bandwidth Die-to-Die Interconnect 相連接。這表示 NVIDIA 從單晶片走向模組化邏輯,可能是在晶圓尺寸與良率之間做了取捨。
其次,GB300 本身支援 HBM3e 記憶體,最多可以接到 192GB 的容量,這對於處理大模型(尤其是LLM)會有非常大的幫助。而它內建的第六代 NVLink,也在做 die-to-die 與 GPU-to-GPU 通訊時提供更高頻寬與更低延遲,這點對我們在主板設計上要考慮的 routing 與物理 layout 是非常直接的挑戰。總結一下,這篇短文會先聚焦在 GB300 這顆核心 GPU 的設計邏輯,包括它的 chiplet 結構、記憶體通道、互連設計等等,再逐步延伸到它在模組(如GB200)、伺服器、資料中心等應用的落實情況。畢竟對我們做系統的人來說,你只有真正搞懂核心元件,才談得上做出相容穩定又高效能的系統。
2.硬體架構拆解:從Die設計到封裝進化
講到 GB300 的架構,我們第一個會注意到的就是——這已經不是一顆單一大Die的GPU了。這代NVIDIA直接走上了 chiplet(多晶粒)設計路線,這點對我們做系統端、尤其是server主板設計的RD來說,代表非常多「背後藏著的麻煩」跟「換來的性能提升」。
2.1 製程與封裝設計:TSMC 4NP + Chiplet + CoWoS-L
GB300 採用的是 TSMC 的 4NP 製程(基本上是 4N 的優化版本),搭配 NVIDIA 的 CoWoS-L 封裝技術。不同於 H100 的單一大晶粒設計,GB300 是由兩顆 Compute Die(B100 Die) 所組成,這兩顆die之間透過內部的高頻寬互連橋接起來。
📌 CoWoS-L 是什麼?
這是一種類似英特爾EMIB的 2.5D 封裝方式,允許多個 die 坐在同一個中介層(interposer)上共享高速連接資源。這對於高頻訊號完整性、routing 長度與熱分布是相當關鍵的。
2.2 Compute Die 結構:2x Die + 內部Interconnect
從目前公開資訊推估,GB300 每顆 die 內部搭載了全新的 Streaming Multiprocessor(SM)模組設計,而且強化了 Transformer Engine 的計算能力。這代的 Tensor Core 進一步優化了對 FP8 的支援,也內建更多 Matrix Multiply Acceleration(MMA)路徑。
- 單一GB300 擁有 208 Billion transistors,整體架構為左右兩顆 die 組成。
- 每顆 die 擁有獨立的 cache 層級與記憶體控制器(但透過共享協定可以互通)
- 內部透過 NV-HBI (High Bandwidth Interconnect) 串接,NVIDIA 聲稱達成 <600ps latency。
這代表我們在設計 PCB 或模組時,不用處理兩個die之間的實體連接線路,但系統端要預期其內部資料流會有某些潛在同步 bottleneck。
2.3 HBM 記憶體:支援 HBM3e、最多192GB
GB300 搭配的是新一代 HBM3e,頻寬高達每顆記憶體3.2 Tbps,最高支援到 6個堆疊通道(stack),單卡可達到 192GB 容量。
- 相較於 H100 的 HBM3(最多80GB),這代幾乎是倍數提升。
- 因為採用 chiplet 設計,每顆 die 旁邊各自佈局三個 HBM stack,這點在封裝面會影響散熱模組的均熱設計與 VRM 擺位。
這意味著板子上的 HBM layout 設計會更吃空間,與散熱模組的干涉可能性更高,不處理好會直接影響熱點集中與長時間功耗表現。
2.4 NVLink 第四代:GPU-to-GPU互連再升級
GB300內建的第四代NVLink,單一GPU就支援最多 18個NVLink通道,總頻寬超過 1.8TB/s。對於未來多卡系統來說,這個升級非常關鍵:
- 多卡資料同步的時間減少(特別是多節點LLM訓練)
- GPU之間資料傳輸不再依賴PCIe為主路徑(可避開瓶頸)
- 伺服器/模組之間要多考慮 NVLink bridge、switch placement 與 routing 規劃
這也解釋為什麼 NVIDIA 要推出獨立的 NVLink Switch Die(在GB200模組裡),來整合大規模 GPU mesh。系統廠要導入這種解決方案,等於不只是要有NVLink bridge,還得搞定switch fabric layout與熱設計平衡。