傳統 NVIDIA、AMD、Intel 三大陣營
十多年來 Intel、AMD、NVIDIA 三巨頭持續在 HPC 跟企業伺服器領域角力。2020年之前以 CPU 為主的 HPC 時代,Intel Xeon 長期佔據壓倒性優勢,市占率一度高達 90% 以上,幾乎囊括所有伺服器利潤。
近年來隨著 AI 模型訓練與推論算力爆炸性成長,已經形成以 NVIDIA 為首的壟斷態勢,市佔率高達 80~90%。
NVIDIA 更憑藉 CUDA 軟體生態、NVLink 與 Spectrum-X 等自有互聯技術,從 GPU 供應商進化為完整的 AI 基礎建設平台提供者,推出的DGX NVL72/36 等機櫃 將 GPU、Grace CPU、儲存、網路、系統封裝與 CUDA 軟體環境整合,透過 NVLink(支援節點內 Scale-Up)與 Spectrum-X / Infiniband(支援機櫃間 Scale-Out),提供極高頻寬與低延遲的互聯基礎,支撐大型語言模型的訓練與推論需求。本文將比較 NVIDIA 的 Blackwell/Rubin、AMD 的 MI325X/MI400,以及 Intel 的 Gaudi 3/Jaguar Shores,從製程、算力、記憶體到互連與供電架構.
不只是比較晶片規格,還要進一步看整合封裝、散熱、開發生態系與機櫃系統等.
🔋 NVIDIA Blackwell 系列
目前的王者:B200GPU/GB200 superchip 模組 / NVL72機櫃
硬體配置 / 記憶體帶寬:
- 單顆 B200 GPU 配有 192 GB 的 HBM3e,帶寬1.8 TB/s ( 單顆 GPU 的頻寬)。
- NVL72 機櫃整合GB200 Superchip 模組 36 組,每組包含 2 顆 B200 GPU + 1 顆 Grace CPU,透過 18 個 NVLink 交換器 緊密耦合在一起的巨型單一運算體。
- 機櫃之間則可使用 InfiniBand 或 Spectrum-X 乙太網 進行 Scale-Out 擴展;Nvidia為超大規模模型提供了極致的效能,而且簡化了部署。

NVL72 機櫃的規格
算力:
- B200 FP4(sparse) 峰值 18 PFLOPS ,FP16(sparse) 約為4.5 PFLOPS
- NVL72 機櫃系統提供驚人算力, FP4 精度下約 1,440 PFLOPS
- 注意單位,PFLOPS=1000TFLOPS ,Nvidia 算力已經跳到下一個量級單位
TDP / 功耗:
- 每顆 B200 TDP 約 1,200 W,NVL72機櫃功率可達 120 kW (包含 72 顆 B200 GPU + 36 顆 Grace CPU、18 組 NVLink Switch 等系統元件的功耗) 。
- 全系統採用液冷與高壓直流機櫃級電力設計,搭配 NVIDIA MGX 和 5th‑gen NVLink Switch。
製程 / 封裝:
- 製程採用台積電 4NP,每顆 B200 GPU = 2 顆 Reticle-size Die( Blackwell 裸 die ) + 8顆HBM3e 用 CoWoS‑L 封裝,兩顆裸晶透過 NVIDIA 自家 NV-HBI 連接(頻寬達10 TB/s ),這使得兩顆裸晶幾乎無縫協作-對上層軟體來說被視為一個 B200 GPU。
- 第五代 NVLink、MGX 架構與機櫃級液冷/直流供電技術形成完整系統解。
- 採用目前台積電最先進的 CoWoS‑L 封裝技術,封裝內供電整合了 PMIC + Inductor + eDTC 元件以提供千瓦級供電及千安培級別電流,封裝內系統級供電可以參考臺積電CoWoS-L封裝技術:AI晶片供電整合的革命性突破 跟CoWoS-L封裝技術:解鎖AI晶片千瓦級功耗的關鍵
下一代 Rubin / Rubin Ultra(2026↑):
- Rubin 將採台積電 N3 製程、8 層 HBM4、NVLink 6、封裝規模更大,預計 TDP ≥1,500 W、算力翻倍。
- 現行:Blackwell架構對應到的 B200 GPU / GB200 SuperChip 模組。
- 2025:「Blackwell Ultra」對應到的 GB300 單晶片已發布(20 PF FP4、288 GB HBM3e)。NVIDIA 直接對標 AMD MI325X 的記憶體優勢。
- 2026:Rubin (R100)將採用台積電 N3 製程、8 層 HBM4 記憶體和第 6 代 NVLink。
- 2027:Rubin "Ultra" ,Rubin 架構的升級版,將配備 12 層 HBM4 記憶體。
- 這個「一年一更新」的產品節奏,是 NVIDIA 目前展現出的最可怕的競爭力。
小結:系統為王,生態鎖定。
NVIDIA 的領先已不僅僅是單晶片或單卡算力,而是由 NVLink Switch 定義的機櫃級高效能互連、CoWoS-L 定義的晶片級供電方案,以及 CUDA 定義的軟體生態所構成的;擁有難以逾越的「系統級」護城河。
其產品一年一更新更是讓對手永遠追不上,只能勉強對標上一代的產品。
🧠 AMD Instinct 系列
目前:MI300X/MI325X -用記憶體硬幹的性價比刺客
硬體配置 / 記憶體:
- MI300X 採 CDNA 3、5 nm + 6 nm chiplet設計,192 GB HBM3,帶寬 5.3 TB/s
- MI325X 為上述改款版本,6 TB/s 帶寬 ,性能略微提升。
算力:
- MI300X FP16 約 1308 TFLOPS (1.3PFLOPS)。
- MI325X 宣稱 FP16/BF16/FP8 分別提升 ~1.3×,號稱推論速度贏過Nvidia 上一代 H200/H100。
- 低精度(FP4)運算,AMD 必須等到 CDNA 4 世代(MI350/355X)
- AMD 預告下一代 MI350(CDNA 4)推出後推論性能將較 CDNA 3 提升 35 倍 。
TDP:
- MI300X TDP 約 750 W 。
製程 / 封裝:
- 採 5 nm 運算 chiplets + 6 nm I/O chiplets 結合 HBM3e,OAM 模組化設計;延續 advanced chiplet 封裝優勢 。
生態/銷售現況:
- MI325X 2025 Q1上市,但近期報告指出其市場接受度略遜,部分客戶轉向 NVIDIA Blackwell 。
下一代 MI350X/MI400X系列:
- 2025 年:MI350 系列 (基於 CDNA 4 架構),宣稱對比 MI300 系列有 35 倍效能。
- 2026 年:MI400 系列 (基於 CDNA "Next" 架構)。

小結:單點突破來尋求破局
AMD 的策略非常清晰:利用台積電最先進的製程和封裝技術,在單晶片/單卡核心規格(特別是記憶體容量)上尋求超越,以卓越性價比吸引對成本敏感或尋求供應鏈多元化的客戶;MI325X 的 288GB 記憶體就是最佳例證。
然而ROCm 生態不足,跟缺乏像 NVLink 的系統級互連是最大的問題.
- AMD MI325X 的擴展最多支援 8 張卡透過 Infinity Fabric 互連。
🕸 Intel 系列
上一代:Gaudi 3. (這一代從缺)
硬體配置 / 記憶體:
- Gaudi 3 採 TSMC 5 nm 雙晶片設計,128 GB HBM2e,帶寬 3.7 TB/s 。
- 配備 96 MB SRAM、PCIe Gen5 x16、1200 GB/s 雙向乙太網路互連 。
算力:
- FP16 峰值為 459 TFLOPS (各種新聞稿還一直不肯用跟人家一樣的FP16的單位)。
- 因為規格太舊,Gaudi 3 並且不支持後來熱門的 FP4 精度的矩陣或向量運算,而下一代規格不明遙遙無期.
TDP / 封裝:
- PCIe 卡版 TDP 約 600 W,OAM 氣冷 900 W,可選液冷 1,200 W 。
- 雖不如 CoWoS-L 複雜,但 Gaudi 3 用台積電的 CoWoS 封裝技術來整合兩個 Die.
擴展互連:
- 重點為 24 個 200 GbE 乙太網路埠,可運用標準乙網交換打造大規模叢集,避免封閉高價互連成本 。
原本2025年要上的這一代 Falcon Shores "不量產":
- 原本採自家 20A / 18A 製程,整合 HBM3e/4,Foveros + EMIB 封裝,TDP ~1 kW。
- 將延續 oneAPI / 乙太網策略挑戰 CUDA 與 NVLink 生態。
後來 2024年中改口說要將採用台積電3奈米製程、CoWoS技術.
最後在 2025/1 宣布將原計劃新一代的 Falcon Shores 將不會量產,而是轉為內部架構的工程驗證;原因顯而易見,自家先進製程(20A / 18A)整合先進封裝(Co-EMIB)就已經地獄難度,但即便攻克這些技術節點量產-整個系統還是輸 Nvidia 一大截.
計畫在2026之後推:Jaguar Shores (規格不明)
機櫃系統級的解決方案 Jaguar Shores
Intel 認知到 AI 戰場已經升級到由運算、高速互連、軟體生態、散熱、封裝系統級供電共同構成的「系統級競爭」。因此 Jaguar Shores 直接瞄準 NVIDIA NVL72 這樣的整合式機櫃系統平台。
因此 2025-2026 年的空窗期就只有靠上一代 Gaudi 3-然後透過超低價來競爭;以三家中最具競爭力的價格和與各大 OEM/ODM 合作.
目前公開資訊估計 Jaguar Shores 是一個高度整合的 AI rack‑scale 平臺,其中預期會包含自家最先進 18A 製程、Foveros3D堆疊 + Co-EMIB 先進封裝、矽光互連(成熟技術)、HBM4 等技術,並結合盟友推動對標NVLink的 Ultra Accelerator Link (UALink).
小結:從霸主變苦主
當年稱霸伺服器的 Intel,如今在 AI 世代只能靠上一代 Gaudi 3 撐場.
放棄了原本 2025 的 AI 救世主 Falcon Shores,也不知道是哪個環節出錯-因為 IDM 一條龍上面每個環節都可能會出包(可能是自家 18A/20A 製程良率,也可能是 Co-EMIB 先進封裝不穩,加上無論如何都追不上就放棄了這一代)。
2025 跟去年一樣只能靠 Gaudi 3 殺低價。
下一代 Jaguar Shores 機櫃系統級解決方案是一場豪賭,不確定是否一如往常的用自家先進製程、自家先進封裝等,但肯定會推UALink;儘管不確定因素太多,但也是僅存的一間能從先進製程、先進封裝、AI晶片設計、系統級互聯、機櫃系統到生態系都一手包辦的 IDM。
🕸 AI 晶片三巨頭是不是該更新了?
因為 Intel 在 AI 時代的步履蹣跚,很多人認為應該以 Broadcom 來取代.
尤其看到 Nvidia 前不久表示將開放「NVLink」以打造NVLink Fusion生態系,讓晶片供應商們可以打造「半客製化的 AI ASIC 及相關 AI 基礎設備」;這就是專門瞄準高速網路技術特別厲害的 Broadcom 而來.
不過博通幫這些大型 CSP 客製化他們自家的 AI ASIC 時-這部分的規格跟商業細節很多都沒公開;我人脈有限&能力不足,怎麼樣也只是霧裡看花.
看財報胡謅腦捕也不是我的風格,就先擱著吧~
🔍 結論觀察:
- AMD 的挑戰在於如何把好晶片變成好的系統,關鍵在互連與生態整合。
- Intel 的挑戰,是整條供應鏈從先進製程、先進封裝到機櫃系統生態都要自己扛,充滿不確定性.(最慘的是即便排除那些不確定因素-產品順利問世還是輸)
- NVIDIA 在現在與未來皆保持算力與集群互連的領先優勢,尤其機櫃解決方案成熟、強大的CUDA生態系、對於系統級封裝到機櫃系統都有最高掌握度;產品性能、整合度、成熟度都遙遙領先.
上面都是 ChatGPT講的.
用人話來講
Nvidia 遙遙領先是本來就知道的事情,但是直接把市場老三 Intel 給整崩潰-放棄2025原本說好的「翻盤之作」 Falcon Shores ,跳到下一代直接做 Jaguar Shores 機櫃系統.
- 說白了就是:「今年我打不過你就先 PASS啦!」
市場老二 AMD 的 MI300X / MI325X 對標的是 Nvidia 上一代產品 H100/H200.
Nvidia 在機櫃系統級別領先優勢就更大,下面整理了一張圖.

NVL72 機櫃整合72 顆 B200 GPU 跟 13.5TB HBM3e,內部頻寬 576TB/s 的巨型單一運算體;適合超級巨大的大語言模型.
就問這樣的 nvidia 怎麼輸?

老黃的心情:『拔劍四顧心茫然』