当地时间周一(3月18日),备受瞩目的英伟达年度GTC会议在加州圣何塞拉开帷幕。
时隔五年,英伟达再次线下举办起了年度GTC会议,故外界对此次大会期待值很高。英伟达方面也没有让大家失望,一次性介绍了多个公司的最新成果。
在此次大会上,最引人瞩目的就是英伟达推出的新一代Blackwell GPU架构。
官方介绍称,Blackwell可使全球机构都能够在万亿参数的大语言模型(LLM)上构建和运行实时生成式AI,其成本和能耗较上一代产品降低多达25倍。
官方表示,Blackwell GPU架构搭载六项变革性的加速计算技术:
●全球最强大的芯片:Blackwell架构GPU具有2,080亿个晶体管,采用台积电4纳米(nm)工艺制造,通过10TB/s的片间互联,将GPU裸片连接成一块统一的GPU。
●第二代Transformer引擎:得益于全新微张量缩放支持,以及集成于英伟达TensorRT™-LLM和NeMo Megatron框架中的英伟达先进动态范围管理算法,Blackwell将在新型4位浮点AI推理能力下实现算力和模型大小翻倍。
●第五代NVLink:为了提升万亿级参数模型和混合专家AI模型的性能,第五代NVLink为每块GPU提供突破性的1.8TB/s双向吞吐量,确保多达576块GPU之间的无缝高速通信,可以满足当今最复杂LLM的需求。
●RAS引擎:采用Blackwell架构的GPU包含一个用于保障可靠性、可用性和可维护性的专用引擎。此外,Blackwell架构还增加了多项芯片级功能,能够利用AI预防性维护来运行诊断并预测可靠性相关的问题。这将最大程度地延长系统正常运行时间,提高大规模AI部署的弹性,使其能够连续不间断运行数周乃至数月,同时降低运营成本。
●安全AI:先进的机密计算功能可以在不影响性能的情况下保护AI模型和客户数据,并且支持全新本地接口加密协议,这对于医疗、金融服务等高度重视隐私问题的行业至关重要。
●解压缩引擎:专用的解压缩引擎支持最新格式,通过加速数据库查询提供极其强大的数据分析和数据科学性能。未来几年,每年需要企业花费数百亿美元的数据处理将越来越多地由GPU加速。
凭借上述技术,Blackwell能够在拥有高达10万亿参数的模型上实现AI训练和实时LLM推理。英伟达表示,这些技术将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式AI等领域实现突破。
英伟达还介绍了GB200 Grace Blackwell超级芯片。
官方称,该超级芯片是通过900GB/s超低功耗的片间互联,将两个英伟达B200 Tensor Core GPU与Grace CPU相连。
GB200是英伟达GB200 NVL72的关键组件。GB200 NVL72是一套多节点液冷机架级扩展系统,适用于高度计算密集型的工作负载。它将36个GraceBlackwell超级芯片组合在一起,其中包含通过第五代NVLink相互连接的72个Blackwell GPU和36个Grace CPU。
此外,GB200 NVL72还内置BlueField®-3数据处理器,可在超大规模AI云中实现云网络加速、组合式存储、零信任安全和GPU计算弹性。对于LLM推理工作负载,相较于同样数量的H100,GB200 NVL72最高可提供30倍的性能提升以及多达25倍的成本和能耗降低。
值得一提的是,该平台可作为一个单GPU,具有1.4 exaflops的AI性能和30TB的快速内存,是组成最新一代DGX SuperPOD的基础模块。
英伟达方面透露,其合作伙伴将从今年晚些时候开始供应采用Blackwell架构的产品。
其中,亚马逊的AWS、谷歌云、微软的Azure、甲骨文云基础设施将成为首批提供 Blackwell 驱动实例的云服务提供商。
Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、Oracle EU Sovereign Cloud、Oracle美国/英国/澳大利亚政府云、新加坡电信等主权AI云也将提供基于Blackwell架构的云服务和基础设施。
GB200 还将通过 NVIDIA DGX™ Cloud 提供,NVIDIA DGX™ Cloud 是一个与领先的云服务提供商共同设计的 AI 平台,可为企业开发人员提供专门的基础设施和软件访问权限,使他们能够构建并部署先进的生成式 AI 模型。AWS、谷歌云和甲骨文云基础设施计划在今年晚些时候托管采用Grace Blackwell的新实例。
此外,思科、戴尔、联想和超微预计将提供基于Blackwell产品打造的各种服务器。永擎电子、华硕、Foxconn、技嘉、和硕等多家企业也将提供基于Blackwell的服务器。
此外,越来越多的软件制造商网络,包括工程仿真领域的全球领导者 Ansys、Cadence 和 Synopsys,将使用基于Blackwell的处理器来加速其用于设计和仿真电气、机械和制造系统及零件的软件。他们的客户可以更低成本、更高能效地使用生成式 AI 和加速计算,来加速产品上市。
在GTC大会期间,英伟达推出数十项企业级生成式AI微服务,企业可以利用这些微服务在自己的平台上创建和部署定制应用,同时保留对知识产权的完整所有权和控制权。
包括Adobe、Cadence、CrowdStrike、Getty Images和SAP在内的诸多领先应用、数据和网络安全平台提供商已经率先使用了英伟达AI Enterprise 5.0中提供的这些全新生成式AI微服务。
英伟达创始人兼首席执行官黄仁勋表示:“成熟的企业平台坐拥数据金矿,这些数据可以转化为生成式AI助手。我们与合作伙伴生态系统一起创建的这些容器化AI微服务,是各行业企业成为AI公司的基石。”
NIM微服务提供基于英伟达推理软件的预构建容器,可以使开发者能够将部署时间从几周缩短至几分钟。它们为语言、语音和药物发现等领域提供行业标准API,使开发者能够使用安全托管在自己的基础设施中的专有数据,来快速构建AI应用。
NIM微服务将为谷歌、Meta、微软等多家企业的开放模型提供了快速且性能出色的生产级AI容器。
此外,为了加快AI采用,企业还可以使用CUDA-X微服务,包括用于定制语音和翻译AI的Riva、用于路由优化的cuOpt™,以及用于高分辨率气候和天气模拟的Earth-2。
英伟达表示,更多用于定制模型开发的NVIDIA NeMo™ 微服务即将陆续发布,其中包括构建用于训练和检索的简洁数据集的NeMo Curator、用于利用特定领域数据微调LLM的NeMo Customizer、用于分析 AI 模型性能的NeMo Evaluator 以及用于LLM的NeMo Guardrails。
在GTC上,英伟达发布了人形机器人通用基础模型Project GR00T,为大家展示了其在机器人和具身智能方面的突破。
据官方介绍,GR00T驱动的机器人将能够理解自然语言,并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能,以便导航、适应现实世界并与之互动。
英伟达还发布了一款基于Thor系统级芯片(SoC)的新型人形机器人计算机Jetson Thor。
该SoC包括一个带有transformer engine的下一代GPU,其采用Blackwell架构,可提供每秒800万亿次8位浮点运算AI性能,以运行GR00T等多模态生成 AI模型。凭借集成的功能安全处理器、高性能CPU集群和100GB以太网带宽,大大简化了设计和集成工作。
英伟达透露,其正在为领先的人形机器人公司开发一个综合的AI平台,如1X Technologies、Agility Robotics、波士顿动力公司、Figure AI、宇树科技等。
此外,英伟达对Isaac机器人平台也进行了重大升级。GR00T使用的Isaac工具还能够为在任何环境中的任何机器人创建新的基础模型。这些工具包括用于强化学习的Isaac Lab和用于计算编排服务的 OSMO。不过,新的Isaac平台功能要到下个季度才会推出。