NVIDIA前陣子推出了Llama-Nemotron系列,這是一組專為高效AI推理和代理工作流程設計的開源推理模型。本文將討論Llama-Nemotron系列的發布、開源特性,以及其與DeepSeek-R1的效能比較。

Llama-3.1-Nemotron-Ultra-253B-v1
NVIDIA Llama-Nemotron系列:三款模型滿足多元需求
NVIDIA於2025年5月正式發布Llama-Nemotron系列,包含三款模型,針對不同應用場景進行最佳化:- Nano (8B參數):適合個人電腦和邊緣設備,輕量高效,適用於資源受限環境。
- Super (49B參數):針對單GPU設定,提供卓越的性能與靈活性。
- Ultra (253B參數):專為多GPU伺服器設計,支援高達128K token的上下文長度,適用於複雜的企業級應用。
這些模型基於Meta的Llama-3.1-405B-Instruct架構,經過NVIDIA的後訓練最佳化,顯著提升了在推理、數學、程式設計和決策制定等方面的表現。尤其是Llama-3.1-Nemotron-Ultra-253B-v1,在多項基準測試中與DeepSeek-R1等頂尖模型競爭,展現了其高效能與高效率的優勢。
此外,NVIDIA於在arXiv發布了詳細的技術報告,涵蓋監督微調(SFT)、大規模強化學習(RL)及模型評估細節。報告還公開了訓練數據,包括NVIDIA Llama Nemotron Post-Training Dataset和OpenCodeReasoning Dataset,為開發者提供了高度透明的資源。
arXiv:Llama-Nemotron: Efficient Reasoning Models
Llama-Nemotron的開源透明
模型權重開放
Llama-Nemotron系列的模型權重(Nano 8B、Super 49B、Ultra 253B)以Apache 2.0許可證發布,開發者可透過Hugging Face等平台自由下載、使用、修改和部署,為AI社群提供了低門檻的創新機會。
訓練數據公開
NVIDIA不僅公開模型權重,還釋出了大量訓練數據,包括後訓練數據集和程式推理數據集。這些數據集包含合成數據和人工標註數據,專為推理、數學和程式設計任務設計。這種透明度在高性能模型中極為罕見,進一步推動了AI研究的民主化。
訓練框架與工具
NVIDIA提供了開源的NeMo框架,用於訓練Llama-Nemotron模型,並附有詳細的訓練流程、神經架構搜尋(NAS)和後訓練技術文檔,此外,NVIDIA的NIM微服務和評估基準也向公眾開放,提升了模型的實用性。

Llama-3.1-Nemotron-Ultra-253B-v1
Llama-Nemotron vs. DeepSeek-R1
整體競爭力與排名
根據獨立評測機構Artificial Analysis的2025年4月數據,Llama-3.1-Nemotron-Ultra-253B(LN-Ultra)以61分的成績,略高於DeepSeek-R1的60分,成為最「智慧」的開源模型。這顯示LN-Ultra在推理能力上已達到業界領先水平。
推理效率
LN-Ultra在推理效率上展現了顯著優勢。透過Puzzle架構(神經架構搜尋)和FFN Fusion技術,LN-Ultra能在單一8xH100節點上高效運行,而DeepSeek-R1則需8xH200節點。在GPQA-Diamond基準測試中,LN-Ultra的吞吐量比DeepSeek-R1高出1.71倍,推理延遲顯著改善。
推理能力
LN-Ultra在GPQA-Diamond基準測試中達到76.0%的準確度,超越DeepSeek-R1的71.5%,創下開源模型的新紀錄。透過大規模強化學習,LN-Ultra在推理任務中甚至超越其教師模型DeepSeek-R1。此外,在JudgeBench等超分佈任務上,LN-Ultra也表現出色,穩坐最佳開源模型寶座。
其他基準測試
LN-Ultra在AIME24、AIME25、MATH500和LiveCodeBench等推理基準測試中,表現與DeepSeek-R1相當或更佳。即使在非推理任務(如BFCL V2 Live和IFEval),LN-Ultra也保持與頂尖模型的競爭力。
NVIDIA的Llama-Nemotron系列在推理能力和效率上超越DeepSeek-R1,說明最強開源模型的良性競爭仍在持續中,也能造福更多AI研究等領域。
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~
也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!
>>>請我喝一杯咖啡






















