EC2 trn 系列是 Amazon Web Services (AWS) 針對高效能深度學習 (DL) 訓練而設計的 EC2 執行個體系列,特別適用於生成式 AI 模型,包括大型語言模型 (LLMs) 和潛在擴散模型。目前主要有兩個子系列:Trn1 和 Trn2。
EC2 Trn1 執行個體:
* 由高達 16 個 AWS Trainium 晶片提供支持。* 每個晶片包含兩個第二代 NeuronCore。
* 提供高達 3 petaflops 的 FP16/BF16 運算能力。
* 配備高達 512 GB 的高頻寬加速器記憶體。
* 提供多種執行個體大小,包括 trn1.2xlarge (單個 Trainium 晶片) 和 trn1.32xlarge/trn1n.32xlarge (16 個 Trainium 晶片)。
* trn1n.32xlarge 執行個體提供更高的網路頻寬 (1600 Gbps)。
EC2 Trn2 執行個體和 UltraServers:
* 提供比基於 GPU 的 EC2 P5e 和 P5en 執行個體高出 30-40% 的價格效能。
* Trn2 UltraServers 使用 NeuronLink 技術,將四個 Trn2 執行個體中的 64 個 Trainium2 晶片連接起來,顯著提升運算、記憶體和網路頻寬。
* 旨在提供最先進的訓練和推理性能,同時降低成本,縮短訓練時間並加速迭代。
總之,EC2 trn 系列執行個體是專為需要大規模平行運算能力來訓練複雜 AI 模型的工作負載而設計的,使用了 AWS 自研的 Trainium 加速器晶片,以提供優異的效能和成本效益。