NVIDIA 推出 Nemotron Nano 2 ：Mamba架構、可控思考與6倍效能，AI落地應用的新利器

2025/08/25 更新2025/08/25 發佈閱讀 9 分鐘

大型語言模型（LLM）的體積越來越龐大，運算成本也隨之水漲船高。這使得許多企業和開發者在導入 AI 應用的最後一哩路上，常常因為高昂的硬體需求和維護成本而卻步。就在 2025 年 8 月，NVIDIA 推出了一款全新模型：Nemotron Nano 2。它是一個擁有 90 億參數的中型模型，卻能在推理效能上達到同級模型的 6 倍，同時在關鍵的推理、數學與程式碼生成任務上達到頂尖水準。更重要的是，它能在單張價格相對親民的 A10G GPU 上順暢運行 128K 的長文本處理。

nvidia/NVIDIA-Nemotron-Nano-9B-v2

Nemotron Nano 2 ：完全開源的混合架構模型

混合Mamba與Transformer架構：速度與精度的最佳平衡點

過去，Transformer 架構在處理長序列文本時，其自注意力機制的運算量會呈二次方增長，導致效能瓶頸。為了解決這個問題，Nemotron Nano 2 採用了一種創新的混合架構。

根據 NVIDIA 的技術報告，模型中高達 92% 的層級採用了最新的 Mamba-2 架構，這是一種狀態空間模型（State Space Model, SSM），它在處理序列資料時能以近乎線性的方式擴展，大幅提升了處理長文本的效率。同時，模型保留了約 8% 的稀疏 Transformer 層，專門用於捕捉複雜的全局依賴關係，確保模型的推理準確度不受影響。這種結合讓 Nemotron Nano 2 在保持高準確度的同時，也能擁有極高的推理吞吐量，特別是在需要處理大量輸入與輸出的應用場景中。

一張 A10G 跑 128K 上下文：硬體門檻大幅降低

對於許多企業來說，導入 AI 最大的障礙之一就是硬體成本。動輒需要多張 H100 或 A100 等頂級 GPU 的部署方案，並非人人都能負擔。Nemotron Nano 2 的出現，大幅降低了高效能 AI 的硬體門檻。

經過精密的模型壓縮與優化，這個 90 億參數的模型能夠在單張 NVIDIA A10G GPU 上，處理高達 128,000 個 token 的上下文長度。A10G 是一款廣泛應用於雲端運算與企業伺服器的 GPU，其成本遠低於最新的資料中心頂級產品。企業可以在既有的或成本較低的硬體基礎設施上，部署一個能夠處理長篇報告分析、複雜客戶服務對話或大規模程式碼輔助的先進 AI 模型。

完全開源：模型與6兆Token訓練資料集同步釋出

NVIDIA Nemotron Nano 2 在 Hugging Face 平台上以 NVIDIA Open Model License 的形式發布，允許學術研究與商業應用。開發者可以自由地使用、修改及分發這個模型及其衍生版本，只需遵守如安全護欄和來源標示等合理條件。

更令人振奮的是，NVIDIA 連同模型一起，開源了其超過 6.6 兆 token 的龐大預訓練資料集「Nemotron-Pre-Training-Dataset-v1」。這份資料集涵蓋了通用網路爬取、數學、程式碼、多語言等多樣化內容，讓研究人員能夠重現訓練過程，並在此基礎上進行更深入的探索。

核心技術：Nemotron Nano 2 如何誕生？

從12B到9B的瘦身之路：Minitron 壓縮與蒸餾技術

Nemotron Nano 2 的誕生並非一蹴可幾。它的前身是一個名為 Nemotron-Nano-12B-v2-Base 的 120 億參數基礎模型。這個基礎模型在一個高達 20 兆 token 的高品質資料集上進行了預訓練，奠定了其強大的基礎能力。

然而，120 億參數的體積對於在 A10G 這類 GPU 上實現 128K 長文本推理仍然太大。為此，NVIDIA 的團隊採用了名為 Minitron 的壓縮與蒸餾策略。這個過程包含兩個關鍵步驟：

模型剪枝（Pruning）：首先，團隊透過系統性的分析，移除了對模型整體表現影響較小的神經網路層（從 62 層減少到 56 層）和部分神經元，直接縮減模型的物理尺寸。
知識蒸餾（Distillation）：在模型被「瘦身」後，為了不損失其原有的智慧，團隊會讓這個較小的「學生模型」（9B 版本）去學習原始「老師模型」（12B 版本）的輸出。透過這種方式，知識從大模型轉移到小模型，確保壓縮後的 Nemotron Nano 2 依然能保有優異的準確度。

經過這趟精密的瘦身之旅，Nemotron Nano 2 成功將參數壓縮到 90 億左右，使其能夠在記憶體有限的環境中高效運行。

獨特的「可控思考」機制：開發者如何平衡延遲與準確度？

在處理複雜問題時，語言模型通常需要一個「內部思考」的過程，也就是所謂的思維鏈（Chain-of-Thought）。這個過程會生成中間的推理步驟，有助於提高最終答案的準確性，但同時也會增加運算時間和延遲。

Nemotron Nano 2 引入了一個非常實用的「可控思考」（Toggleable Reasoning）機制。開發者可以在輸入提示（prompt）中加入特殊的控制標籤，例如 <think> 來啟動模型的詳細推理模式，或者在不需要複雜思考的場景下，讓模型直接生成答案。

更有趣的是，開發者還可以設定一個「思考預算」（thinking budget），例如限制模型只能在內部生成 1000 個 token 的推理步驟。一旦達到預算，模型就會被引導結束思考，並產出最終答案。開發者可以根據具體的應用需求，在準確度與反應速度之間做出最佳的權衡。

訓練資料的秘密：不只量大，更重質精

一個模型的強大與否，訓練資料是關鍵。NVIDIA 在其技術報告中詳細介紹了 Nemotron Nano 2 背後龐大且精良的資料集。其預訓練資料混合了十三種不同類型的資料，並採用了三階段的課程學習（Curriculum Learning）策略。

在訓練初期，模型會接觸更多樣化的資料，以建立廣泛的知識基礎。隨著訓練的推進，資料的混合比例會逐漸偏向高品質的來源，例如維基百科、學術論文和經過篩選的程式碼，以強化其深度推理與專業能力。資料來源涵蓋了英文、中文、日文、德文等 15 種語言，確保了其多語言處理能力。在數學和程式碼資料的處理上，NVIDIA 特別確保公式和程式碼結構的完整性，這也是 Nemotron Nano 2 在這兩個領域表現出色的重要原因。

TN科技筆記的觀點

多年來，大型語言模型（LLM）的發展幾乎與 Transformer 架構劃上等號。然而，所有開發者都清楚其核心瓶頸：自注意力（Self-Attention）機制在處理長文本時，運算成本會呈二次方增長。這使得我們在追求更長上下文（Context Length）的同時，也必須面對高昂到令人卻步的硬體成本與延遲。Nemotron Nano 2 最值得稱讚之處，在於它沒有盲目追求單一架構的極致，而是採用了一種極為務實的「混合動力」設計。

佔比高達 92% 的 Mamba-2 層，憑藉其近似線性的擴展能力，完美地解決了長序列處理的效能問題。它讓模型在處理數萬、甚至數十萬 token 的文本時，依然能保持飛快的速度和較低的資源消耗。保留的 8% 稀疏 Transformer 層，則像是在關鍵時刻介入的渦輪增壓系統。它專門用來捕捉那些 Mamba 架構可能忽略的、跨越文本全局的複雜依賴關係，確保模型在進行深度推理時，不會犧牲準確度。

混合架構也引發新的思考，對於不同規模、不同應用的模型，這個「混合架構」可能需要調整。例如，一個專注於程式碼生成的模型，是否需要更多 Transformer 層來理解複雜的程式碼結構？一個專門用於長篇報告摘要的模型，是否可以更大膽地採用 99% 的 Mamba 架構？未來模型架構的設計，可能將從「堆疊更多層」，轉向「如何調配不同架構的最佳比例」。