大型語言模型(LLM)的體積越來越龐大,運算成本也隨之水漲船高。這使得許多企業和開發者在導入 AI 應用的最後一哩路上,常常因為高昂的硬體需求和維護成本而卻步。就在 2025 年 8 月,NVIDIA 推出了一款全新模型:Nemotron Nano 2。它是一個擁有 90 億參數的中型模型,卻能在推理效能上達到同級模型的 6 倍,同時在關鍵的推理、數學與程式碼生成任務上達到頂尖水準。更重要的是,它能在單張價格相對親民的 A10G GPU 上順暢運行 128K 的長文本處理。

nvidia/NVIDIA-Nemotron-Nano-9B-v2
Nemotron Nano 2 :完全開源的混合架構模型
混合Mamba與Transformer架構:速度與精度的最佳平衡點
過去,Transformer 架構在處理長序列文本時,其自注意力機制的運算量會呈二次方增長,導致效能瓶頸。為了解決這個問題,Nemotron Nano 2 採用了一種創新的混合架構。根據 NVIDIA 的技術報告,模型中高達 92% 的層級採用了最新的 Mamba-2 架構,這是一種狀態空間模型(State Space Model, SSM),它在處理序列資料時能以近乎線性的方式擴展,大幅提升了處理長文本的效率。同時,模型保留了約 8% 的稀疏 Transformer 層,專門用於捕捉複雜的全局依賴關係,確保模型的推理準確度不受影響。這種結合讓 Nemotron Nano 2 在保持高準確度的同時,也能擁有極高的推理吞吐量,特別是在需要處理大量輸入與輸出的應用場景中。
一張 A10G 跑 128K 上下文:硬體門檻大幅降低
對於許多企業來說,導入 AI 最大的障礙之一就是硬體成本。動輒需要多張 H100 或 A100 等頂級 GPU 的部署方案,並非人人都能負擔。Nemotron Nano 2 的出現,大幅降低了高效能 AI 的硬體門檻。
經過精密的模型壓縮與優化,這個 90 億參數的模型能夠在單張 NVIDIA A10G GPU 上,處理高達 128,000 個 token 的上下文長度。A10G 是一款廣泛應用於雲端運算與企業伺服器的 GPU,其成本遠低於最新的資料中心頂級產品。企業可以在既有的或成本較低的硬體基礎設施上,部署一個能夠處理長篇報告分析、複雜客戶服務對話或大規模程式碼輔助的先進 AI 模型。
完全開源:模型與6兆Token訓練資料集同步釋出
NVIDIA Nemotron Nano 2 在 Hugging Face 平台上以 NVIDIA Open Model License 的形式發布,允許學術研究與商業應用。開發者可以自由地使用、修改及分發這個模型及其衍生版本,只需遵守如安全護欄和來源標示等合理條件。
更令人振奮的是,NVIDIA 連同模型一起,開源了其超過 6.6 兆 token 的龐大預訓練資料集「Nemotron-Pre-Training-Dataset-v1」。這份資料集涵蓋了通用網路爬取、數學、程式碼、多語言等多樣化內容,讓研究人員能夠重現訓練過程,並在此基礎上進行更深入的探索。
核心技術:Nemotron Nano 2 如何誕生?
從12B到9B的瘦身之路:Minitron 壓縮與蒸餾技術
Nemotron Nano 2 的誕生並非一蹴可幾。它的前身是一個名為 Nemotron-Nano-12B-v2-Base 的 120 億參數基礎模型。這個基礎模型在一個高達 20 兆 token 的高品質資料集上進行了預訓練,奠定了其強大的基礎能力。
然而,120 億參數的體積對於在 A10G 這類 GPU 上實現 128K 長文本推理仍然太大。為此,NVIDIA 的團隊採用了名為 Minitron 的壓縮與蒸餾策略。這個過程包含兩個關鍵步驟:
- 模型剪枝(Pruning):首先,團隊透過系統性的分析,移除了對模型整體表現影響較小的神經網路層(從 62 層減少到 56 層)和部分神經元,直接縮減模型的物理尺寸。
- 知識蒸餾(Distillation):在模型被「瘦身」後,為了不損失其原有的智慧,團隊會讓這個較小的「學生模型」(9B 版本)去學習原始「老師模型」(12B 版本)的輸出。透過這種方式,知識從大模型轉移到小模型,確保壓縮後的 Nemotron Nano 2 依然能保有優異的準確度。
經過這趟精密的瘦身之旅,Nemotron Nano 2 成功將參數壓縮到 90 億左右,使其能夠在記憶體有限的環境中高效運行。
獨特的「可控思考」機制:開發者如何平衡延遲與準確度?
在處理複雜問題時,語言模型通常需要一個「內部思考」的過程,也就是所謂的思維鏈(Chain-of-Thought)。這個過程會生成中間的推理步驟,有助於提高最終答案的準確性,但同時也會增加運算時間和延遲。
Nemotron Nano 2 引入了一個非常實用的「可控思考」(Toggleable Reasoning)機制。開發者可以在輸入提示(prompt)中加入特殊的控制標籤,例如 <think> 來啟動模型的詳細推理模式,或者在不需要複雜思考的場景下,讓模型直接生成答案。
更有趣的是,開發者還可以設定一個「思考預算」(thinking budget),例如限制模型只能在內部生成 1000 個 token 的推理步驟。一旦達到預算,模型就會被引導結束思考,並產出最終答案。開發者可以根據具體的應用需求,在準確度與反應速度之間做出最佳的權衡。
訓練資料的秘密:不只量大,更重質精
一個模型的強大與否,訓練資料是關鍵。NVIDIA 在其技術報告中詳細介紹了 Nemotron Nano 2 背後龐大且精良的資料集。其預訓練資料混合了十三種不同類型的資料,並採用了三階段的課程學習(Curriculum Learning)策略。
在訓練初期,模型會接觸更多樣化的資料,以建立廣泛的知識基礎。隨著訓練的推進,資料的混合比例會逐漸偏向高品質的來源,例如維基百科、學術論文和經過篩選的程式碼,以強化其深度推理與專業能力。資料來源涵蓋了英文、中文、日文、德文等 15 種語言,確保了其多語言處理能力。在數學和程式碼資料的處理上,NVIDIA 特別確保公式和程式碼結構的完整性,這也是 Nemotron Nano 2 在這兩個領域表現出色的重要原因。
TN科技筆記的觀點
多年來,大型語言模型(LLM)的發展幾乎與 Transformer 架構劃上等號。然而,所有開發者都清楚其核心瓶頸:自注意力(Self-Attention)機制在處理長文本時,運算成本會呈二次方增長。這使得我們在追求更長上下文(Context Length)的同時,也必須面對高昂到令人卻步的硬體成本與延遲。Nemotron Nano 2 最值得稱讚之處,在於它沒有盲目追求單一架構的極致,而是採用了一種極為務實的「混合動力」設計。
佔比高達 92% 的 Mamba-2 層,憑藉其近似線性的擴展能力,完美地解決了長序列處理的效能問題。它讓模型在處理數萬、甚至數十萬 token 的文本時,依然能保持飛快的速度和較低的資源消耗。保留的 8% 稀疏 Transformer 層,則像是在關鍵時刻介入的渦輪增壓系統。它專門用來捕捉那些 Mamba 架構可能忽略的、跨越文本全局的複雜依賴關係,確保模型在進行深度推理時,不會犧牲準確度。
混合架構也引發新的思考,對於不同規模、不同應用的模型,這個「混合架構」可能需要調整。例如,一個專注於程式碼生成的模型,是否需要更多 Transformer 層來理解複雜的程式碼結構?一個專門用於長篇報告摘要的模型,是否可以更大膽地採用 99% 的 Mamba 架構?未來模型架構的設計,可能將從「堆疊更多層」,轉向「如何調配不同架構的最佳比例」。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!
NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model