NVIDIA GB300 GPU深度解析:chiplet架構、HBM3e與NVLink的系統級挑戰

更新於 發佈於 閱讀時間約 5 分鐘

今年 GTC 2024,NVIDIA 發表的 Blackwell 架構核心,也就是所謂的 GB300 GPU,基本上是接續 H100(Hopper 架構)的下一代產品。以系統的角度來看,這一代不只是單純的效能升級,更是從架構層面開始做根本性調整,有幾個關鍵變化值得注意。

首先,GB300 是一顆 chiplet 架構的 GPU。也就是說,它不再像 H100 那樣是一顆大單die,而是採用 multi-die 設計,主要由兩顆 compute die(B100)組成,中間透過 Ultra-High Bandwidth Die-to-Die Interconnect 相連接。這表示 NVIDIA 從單晶片走向模組化邏輯,可能是在晶圓尺寸與良率之間做了取捨。

其次,GB300 本身支援 HBM3e 記憶體,最多可以接到 192GB 的容量,這對於處理大模型(尤其是LLM)會有非常大的幫助。而它內建的第六代 NVLink,也在做 die-to-die 與 GPU-to-GPU 通訊時提供更高頻寬與更低延遲,這點對我們在主板設計上要考慮的 routing 與物理 layout 是非常直接的挑戰。

總結一下,這篇短文會先聚焦在 GB300 這顆核心 GPU 的設計邏輯,包括它的 chiplet 結構、記憶體通道、互連設計等等,再逐步延伸到它在模組(如GB200)、伺服器、資料中心等應用的落實情況。畢竟對我們做系統的人來說,你只有真正搞懂核心元件,才談得上做出相容穩定又高效能的系統。


2.硬體架構拆解:從Die設計到封裝進化

講到 GB300 的架構,我們第一個會注意到的就是——這已經不是一顆單一大Die的GPU了。這代NVIDIA直接走上了 chiplet(多晶粒)設計路線,這點對我們做系統端、尤其是server主板設計的RD來說,代表非常多「背後藏著的麻煩」跟「換來的性能提升」。

2.1 製程與封裝設計:TSMC 4NP + Chiplet + CoWoS-L

GB300 採用的是 TSMC 的 4NP 製程(基本上是 4N 的優化版本),搭配 NVIDIA 的 CoWoS-L 封裝技術。不同於 H100 的單一大晶粒設計,GB300 是由兩顆 Compute Die(B100 Die) 所組成,這兩顆die之間透過內部的高頻寬互連橋接起來。

📌 CoWoS-L 是什麼?

這是一種類似英特爾EMIB的 2.5D 封裝方式,允許多個 die 坐在同一個中介層(interposer)上共享高速連接資源。這對於高頻訊號完整性、routing 長度與熱分布是相當關鍵的。

2.2 Compute Die 結構:2x Die + 內部Interconnect

從目前公開資訊推估,GB300 每顆 die 內部搭載了全新的 Streaming Multiprocessor(SM)模組設計,而且強化了 Transformer Engine 的計算能力。這代的 Tensor Core 進一步優化了對 FP8 的支援,也內建更多 Matrix Multiply Acceleration(MMA)路徑。

  • 單一GB300 擁有 208 Billion transistors,整體架構為左右兩顆 die 組成。
  • 每顆 die 擁有獨立的 cache 層級與記憶體控制器(但透過共享協定可以互通)
  • 內部透過 NV-HBI (High Bandwidth Interconnect) 串接,NVIDIA 聲稱達成 <600ps latency。

這代表我們在設計 PCB 或模組時,不用處理兩個die之間的實體連接線路,但系統端要預期其內部資料流會有某些潛在同步 bottleneck

2.3 HBM 記憶體:支援 HBM3e、最多192GB

GB300 搭配的是新一代 HBM3e,頻寬高達每顆記憶體3.2 Tbps,最高支援到 6個堆疊通道(stack),單卡可達到 192GB 容量。

  • 相較於 H100 的 HBM3(最多80GB),這代幾乎是倍數提升。
  • 因為採用 chiplet 設計,每顆 die 旁邊各自佈局三個 HBM stack,這點在封裝面會影響散熱模組的均熱設計與 VRM 擺位。

這意味著板子上的 HBM layout 設計會更吃空間,與散熱模組的干涉可能性更高,不處理好會直接影響熱點集中與長時間功耗表現。

2.4 NVLink 第四代:GPU-to-GPU互連再升級

GB300內建的第四代NVLink,單一GPU就支援最多 18個NVLink通道,總頻寬超過 1.8TB/s。對於未來多卡系統來說,這個升級非常關鍵:

  • 多卡資料同步的時間減少(特別是多節點LLM訓練)
  • GPU之間資料傳輸不再依賴PCIe為主路徑(可避開瓶頸)
  • 伺服器/模組之間要多考慮 NVLink bridge、switch placement 與 routing 規劃

這也解釋為什麼 NVIDIA 要推出獨立的 NVLink Switch Die(在GB200模組裡),來整合大規模 GPU mesh。系統廠要導入這種解決方案,等於不只是要有NVLink bridge,還得搞定switch fabric layout與熱設計平衡


avatar-img
7會員
50內容數
想發什麼就發的人,就如同我的名稱
留言
avatar-img
留言分享你的想法!
迷茫人生的沙龍 的其他內容
這篇文章淺顯易懂地介紹了人工智慧的基礎概念,從 AI 的優缺點、運作原理到常見的 AI 技術與應用,讓讀者瞭解 AI 的能力與限制,並強調在 AI 時代懂得運用 AI 的重要性。
NVIDIA的GB200架構提供了強大的計算能力,專為深度學習和高效能計算設計。這篇文章深入探討其硬體架構、數據傳輸技術、能效與冷卻系統、以及豐富的軟體支援,讓開發者能夠最大化利用這一平臺。此外,還介紹了基於GB200的實際應用案例,包括自然語言處理和計算機視覺,顯示其在現代計算需求中的卓越性能。
CPLD的原理
鐵碳平衡圖是一種用來描述鐵和碳的合金在不同溫度和碳含量下的相變化的圖表。
This article discusses concrete measures to achieve these goals.
The development of technology has brought countless conveniences, but at the same time has triggered a series of serious challenges and issues
這篇文章淺顯易懂地介紹了人工智慧的基礎概念,從 AI 的優缺點、運作原理到常見的 AI 技術與應用,讓讀者瞭解 AI 的能力與限制,並強調在 AI 時代懂得運用 AI 的重要性。
NVIDIA的GB200架構提供了強大的計算能力,專為深度學習和高效能計算設計。這篇文章深入探討其硬體架構、數據傳輸技術、能效與冷卻系統、以及豐富的軟體支援,讓開發者能夠最大化利用這一平臺。此外,還介紹了基於GB200的實際應用案例,包括自然語言處理和計算機視覺,顯示其在現代計算需求中的卓越性能。
CPLD的原理
鐵碳平衡圖是一種用來描述鐵和碳的合金在不同溫度和碳含量下的相變化的圖表。
This article discusses concrete measures to achieve these goals.
The development of technology has brought countless conveniences, but at the same time has triggered a series of serious challenges and issues
你可能也想看
Google News 追蹤
Thumbnail
靈感用盡、鍵盤不再響,盯著喜歡、分享、留言的數字,心跳跟著小鈴鐺七上八下⋯⋯vocus 2025 年 4 月限定新商品,要為創作者打氣! 🚨「創作者打氣包」 最懂創作者的vocus,為創作者打造 ✨ 打氣包,包什麼?!四件道具挺創作者 一、【打氣復活卷】 專屬你的打氣小語,成功登記免費
Thumbnail
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
Thumbnail
Nvidia(輝達)是一家全球領先的圖形處理單元(GPU)製造商,近期在台灣和國際掀起一股旋風。 其成長歷程展示了技術創新和市場戰略的成功結合。以下是Nvidia企業成長的歷程簡述: 早期階段(1993-2000) Nvidia於1993年由黃仁勳(Jensen Huang)、Ch
這陣子輝達真的太熱門了,有很多人分享GPU硬體相關的技術,也有人分享與老黃一起工作的點點滴滴,總之非常精彩。 而老黃也說過輝達不只有硬體還有軟體,講到軟體大家第一個聯想到的是CUDA,有了CUDA的加持讓NVIDIA的GPU有更好的效能,不過NVIDIA另一個佈局已久的平台比較少人提起-Omniv
Thumbnail
NVIDIA(英偉達)作為全球領先的圖形處理器(GPU)製造商,不僅在遊戲市場佔有重要地位,還在專業圖形和高性能計算領域擁有強大的產品線。
Thumbnail
NVIDIA的新目標是成為支援企業開發AI應用程式的「AI晶圓代工」,提供技術、專業知識和基礎設施,幫助實現AI應用。具體而言,NVIDIA將提供GPU、自主CPU「Grace」、超級計算機及其硬體,還有軟體和工具,以滿足客戶需求。
Thumbnail
隨著人工智慧技術的快速發展,生成式AI(Generative AI)時代已經來臨。在台北國際電腦展(Computex)上,NVIDIA創辦人暨執行長黃仁勳正式發布了新一代Blackwell GPU架構,標誌著這個新紀元的到來。
Thumbnail
NVIDIA 輝達CEO黃仁勳,於台北COMPUTEC 2024展開幕前的6/3晚間,在台大體育館發表主題演講,演講中秀出了GB200 NVL72伺服器成品,正式開啟人形機器人與AI 工廠的工業革命世代。而其中的GB200  Grace Blackwell 超級晶片是GB200 NVL72伺服器
Thumbnail
NVIDIA在人工智慧處理專用GPU領域的地位牢固,但面臨著來自英特爾和超微半導體等競爭對手的反擊。新興企業也加入競爭,使得競爭更加激烈。未來,合作關係將變得至關重要,NVIDIA和其他競爭對手在激烈的競爭中脫穎而出的關鍵。
據報道,Nvidia 未宣布的 R100 AI GPU 將於 2025 年底推出——使用 3nm 和 CoWoS-L 的「Vera Rubin」多晶片設計 Nvidia 預計將重點放在用於 AI 和 HPC 的 Vera Rubin GPU 的功耗。據Medium.com 的知名分析師 Min
Thumbnail
筆記-24.03.25-科技財知道 *輝達想做的事情非常多,包括AI GPU的算力提供(GB200)、協助半導體製造(cuLitho)、車用晶片(Drive Thor)、機器人開發平台(GR00T)、元宇宙等物理模擬(Omniverse)。 *GB200 = 2個B100+1個Grace CPU
Thumbnail
NVIDIA的Blackwell計算平台代表著實時生成式AI應用的重大進步,旨在滿足跨行業挑戰。此平台提升了計算效能,促進了AI在實體世界的應用,並對從自動駕駛到醫療診斷等多個領域產生了深遠影響。NVIDIA 黃仁勳的願景是將AI技術從虛擬世界帶入現實,為創新開闢新道路,一個更加智慧和互聯的未來。
Thumbnail
靈感用盡、鍵盤不再響,盯著喜歡、分享、留言的數字,心跳跟著小鈴鐺七上八下⋯⋯vocus 2025 年 4 月限定新商品,要為創作者打氣! 🚨「創作者打氣包」 最懂創作者的vocus,為創作者打造 ✨ 打氣包,包什麼?!四件道具挺創作者 一、【打氣復活卷】 專屬你的打氣小語,成功登記免費
Thumbnail
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
Thumbnail
Nvidia(輝達)是一家全球領先的圖形處理單元(GPU)製造商,近期在台灣和國際掀起一股旋風。 其成長歷程展示了技術創新和市場戰略的成功結合。以下是Nvidia企業成長的歷程簡述: 早期階段(1993-2000) Nvidia於1993年由黃仁勳(Jensen Huang)、Ch
這陣子輝達真的太熱門了,有很多人分享GPU硬體相關的技術,也有人分享與老黃一起工作的點點滴滴,總之非常精彩。 而老黃也說過輝達不只有硬體還有軟體,講到軟體大家第一個聯想到的是CUDA,有了CUDA的加持讓NVIDIA的GPU有更好的效能,不過NVIDIA另一個佈局已久的平台比較少人提起-Omniv
Thumbnail
NVIDIA(英偉達)作為全球領先的圖形處理器(GPU)製造商,不僅在遊戲市場佔有重要地位,還在專業圖形和高性能計算領域擁有強大的產品線。
Thumbnail
NVIDIA的新目標是成為支援企業開發AI應用程式的「AI晶圓代工」,提供技術、專業知識和基礎設施,幫助實現AI應用。具體而言,NVIDIA將提供GPU、自主CPU「Grace」、超級計算機及其硬體,還有軟體和工具,以滿足客戶需求。
Thumbnail
隨著人工智慧技術的快速發展,生成式AI(Generative AI)時代已經來臨。在台北國際電腦展(Computex)上,NVIDIA創辦人暨執行長黃仁勳正式發布了新一代Blackwell GPU架構,標誌著這個新紀元的到來。
Thumbnail
NVIDIA 輝達CEO黃仁勳,於台北COMPUTEC 2024展開幕前的6/3晚間,在台大體育館發表主題演講,演講中秀出了GB200 NVL72伺服器成品,正式開啟人形機器人與AI 工廠的工業革命世代。而其中的GB200  Grace Blackwell 超級晶片是GB200 NVL72伺服器
Thumbnail
NVIDIA在人工智慧處理專用GPU領域的地位牢固,但面臨著來自英特爾和超微半導體等競爭對手的反擊。新興企業也加入競爭,使得競爭更加激烈。未來,合作關係將變得至關重要,NVIDIA和其他競爭對手在激烈的競爭中脫穎而出的關鍵。
據報道,Nvidia 未宣布的 R100 AI GPU 將於 2025 年底推出——使用 3nm 和 CoWoS-L 的「Vera Rubin」多晶片設計 Nvidia 預計將重點放在用於 AI 和 HPC 的 Vera Rubin GPU 的功耗。據Medium.com 的知名分析師 Min
Thumbnail
筆記-24.03.25-科技財知道 *輝達想做的事情非常多,包括AI GPU的算力提供(GB200)、協助半導體製造(cuLitho)、車用晶片(Drive Thor)、機器人開發平台(GR00T)、元宇宙等物理模擬(Omniverse)。 *GB200 = 2個B100+1個Grace CPU
Thumbnail
NVIDIA的Blackwell計算平台代表著實時生成式AI應用的重大進步,旨在滿足跨行業挑戰。此平台提升了計算效能,促進了AI在實體世界的應用,並對從自動駕駛到醫療診斷等多個領域產生了深遠影響。NVIDIA 黃仁勳的願景是將AI技術從虛擬世界帶入現實,為創新開闢新道路,一個更加智慧和互聯的未來。