
代表晶片:
- A100、A30、A10
技術特點:
- 第三代 Tensor Core:
- 提升了混合精度計算性能,支援 FP32、FP16、BF16 和 INT8 等多種精度,適合不同 AI 工作負載。
- 增強矩陣運算能力,特別是大型矩陣的乘加操作。
- 多實例 GPU(MIG):
- 允許一顆 GPU 被分割為多個實例(最多 7 個),可同時執行多個 AI 推論任務,大幅提升資源利用率。
- NVLink 技術:
- 提供高帶寬 GPU 互聯,適合需要多 GPU 的大規模 AI 訓練。
應用場景:
- 大規模 AI 訓練(如生成式 AI 和深度學習模型)。
- 高效能運算(HPC)。
- 雲端資料中心。
代表模型的應用:
- A100:
- 最強大的 AI 訓練 GPU,廣泛應用於 OpenAI、Google 等企業的深度學習工作負載。
- A30:
- 平衡成本與性能,適合中型企業的 AI 應用。
- A10:
- 針對推論任務進行優化,特別是自動駕駛和邊緣計算場景。
2. Hopper 架構
代表晶片:
- H100、H800(針對中國市場)
技術特點:
- 第四代 Tensor Core:
- 支援 FP8 精度,顯著提升矩陣運算性能,降低功耗和計算成本。
- 更高效能的矩陣操作,用於加速 AI 模型的訓練與推理。
- Transformer Engine:
- 專為處理 Transformer 模型(如 GPT-3、ChatGPT)優化。
- 自動混合精度運算,提高生成式 AI 模型的效率。
- NVLink 第四代:
- 提供更高帶寬的 GPU 互聯,支援多 GPU 部署的大型模型訓練。
應用場景:
- 大型語言模型(LLM)訓練與推理。
- 生成式 AI(如文本生成、影像生成)。
- 超高效能運算需求。
代表模型的應用:
- H100:
- NVIDIA 迄今最強的 AI GPU,專為大規模 AI 模型設計,具備 Transformer 模型的運算加速能力。
- H800:
- 特別針對中國市場的版本,因應出口限制進行調整,但核心性能與 H100 相似。
3. Blackwell 架構
代表晶片(預計推出):
- B100、B200、GB200
技術特點:
- Chiplet 設計:
- 多晶片組(Chiplet)技術,將 GPU 功能模組(如運算核心、記憶體控制器)拆分為多個小晶片,通過高速互聯技術(如 NVLink-HBI)連接。
- 優勢:降低生產難度,提高良率,並大幅提升計算效能。
- HBM3e 記憶體支援:
- 提供更高的記憶體頻寬,最大容量可達 192GB,適合處理更大規模的 AI 模型。
- 第四代 NVLink-HBI 技術:
- 支援每秒高達 10TB 的數據傳輸,滿足多 GPU 協同運算的需求。
應用場景:
- 更大規模的 AI 訓練和推理(如 GPT-4 或更先進的模型)。
- 超高效能運算(HPC)中的數據密集型任務。
- 即時推理、大型語言模型的即時生成。
代表模型的應用:
- B100:
- Blackwell 架構的旗艦 GPU,專為生成式 AI 訓練與推理設計,支援更高效能。
- B200:
- 相較 B100,可能針對大規模數據處理進一步優化。
- GB200:
- Grace CPU 與 B200 GPU 的整合版本,專注於超算領域。