AWS 認為,他們自家客製化的 K2v5/6 網路介面卡(NIC)搭配其內部的 EFA 協議,性能優於 NVIDIA 的 ConnectX-7/8 網路卡。然而,由於 NVIDIA 機櫃的整合度越來越高,超大規模資料中心業者(hyperscalers)要使用自己的網路卡變得越來越困難。這就是導致 AWS 在其 GB300 NVL72 設計中,將網路卡從運算托盤中分離出來,放入一個名為「JBOK」的獨立網路卡擴充櫃的原因。以下我們將解析導致此設計的決策與限制。
對於 GB200,AWS 僅支援 GB200 NVL36x2 和 NVL36 組態,透過 NVLink ACC 纜線連接 2 組 NVL36,使其能在每個 NVLink 域中支援多達 72 個 GPU,同時讓每個機櫃的運算托盤維持在 66kW 功率和 2U 的高度。正如許多 GCP 和 AWS 客戶所注意到的,NVIDIA 對於 NVL36x2 的驅動程式和實體工程支援一直不盡理想,其錯誤比獨立的 NVL72 設計要多得多。儘管 AWS 將其 NVL36x2 宣傳為「NVL72」,但它在拓撲結構上並不等同於真正的 NVL72。



















