NVIDIA 推出 Nemotron Nano 2 :Mamba架構、可控思考與6倍效能,AI落地應用的新利器

更新於 發佈於 閱讀時間約 9 分鐘

大型語言模型(LLM)的體積越來越龐大,運算成本也隨之水漲船高。這使得許多企業和開發者在導入 AI 應用的最後一哩路上,常常因為高昂的硬體需求和維護成本而卻步。就在 2025 年 8 月,NVIDIA 推出了一款全新模型:Nemotron Nano 2。它是一個擁有 90 億參數的中型模型,卻能在推理效能上達到同級模型的 6 倍,同時在關鍵的推理、數學與程式碼生成任務上達到頂尖水準。更重要的是,它能在單張價格相對親民的 A10G GPU 上順暢運行 128K 的長文本處理。

raw-image

nvidia/NVIDIA-Nemotron-Nano-9B-v2

Nemotron Nano 2 :完全開源的混合架構模型

混合Mamba與Transformer架構:速度與精度的最佳平衡點

過去,Transformer 架構在處理長序列文本時,其自注意力機制的運算量會呈二次方增長,導致效能瓶頸。為了解決這個問題,Nemotron Nano 2 採用了一種創新的混合架構。

根據 NVIDIA 的技術報告,模型中高達 92% 的層級採用了最新的 Mamba-2 架構,這是一種狀態空間模型(State Space Model, SSM),它在處理序列資料時能以近乎線性的方式擴展,大幅提升了處理長文本的效率。同時,模型保留了約 8% 的稀疏 Transformer 層,專門用於捕捉複雜的全局依賴關係,確保模型的推理準確度不受影響。這種結合讓 Nemotron Nano 2 在保持高準確度的同時,也能擁有極高的推理吞吐量,特別是在需要處理大量輸入與輸出的應用場景中。

一張 A10G 跑 128K 上下文:硬體門檻大幅降低

對於許多企業來說,導入 AI 最大的障礙之一就是硬體成本。動輒需要多張 H100 或 A100 等頂級 GPU 的部署方案,並非人人都能負擔。Nemotron Nano 2 的出現,大幅降低了高效能 AI 的硬體門檻。

經過精密的模型壓縮與優化,這個 90 億參數的模型能夠在單張 NVIDIA A10G GPU 上,處理高達 128,000 個 token 的上下文長度。A10G 是一款廣泛應用於雲端運算與企業伺服器的 GPU,其成本遠低於最新的資料中心頂級產品。企業可以在既有的或成本較低的硬體基礎設施上,部署一個能夠處理長篇報告分析、複雜客戶服務對話或大規模程式碼輔助的先進 AI 模型。

完全開源:模型與6兆Token訓練資料集同步釋出

NVIDIA Nemotron Nano 2 在 Hugging Face 平台上以 NVIDIA Open Model License 的形式發布,允許學術研究與商業應用。開發者可以自由地使用、修改及分發這個模型及其衍生版本,只需遵守如安全護欄和來源標示等合理條件。

更令人振奮的是,NVIDIA 連同模型一起,開源了其超過 6.6 兆 token 的龐大預訓練資料集「Nemotron-Pre-Training-Dataset-v1」。這份資料集涵蓋了通用網路爬取、數學、程式碼、多語言等多樣化內容,讓研究人員能夠重現訓練過程,並在此基礎上進行更深入的探索。

核心技術:Nemotron Nano 2 如何誕生?

從12B到9B的瘦身之路:Minitron 壓縮與蒸餾技術

Nemotron Nano 2 的誕生並非一蹴可幾。它的前身是一個名為 Nemotron-Nano-12B-v2-Base 的 120 億參數基礎模型。這個基礎模型在一個高達 20 兆 token 的高品質資料集上進行了預訓練,奠定了其強大的基礎能力。

然而,120 億參數的體積對於在 A10G 這類 GPU 上實現 128K 長文本推理仍然太大。為此,NVIDIA 的團隊採用了名為 Minitron 的壓縮與蒸餾策略。這個過程包含兩個關鍵步驟:

  1. 模型剪枝(Pruning):首先,團隊透過系統性的分析,移除了對模型整體表現影響較小的神經網路層(從 62 層減少到 56 層)和部分神經元,直接縮減模型的物理尺寸。
  2. 知識蒸餾(Distillation):在模型被「瘦身」後,為了不損失其原有的智慧,團隊會讓這個較小的「學生模型」(9B 版本)去學習原始「老師模型」(12B 版本)的輸出。透過這種方式,知識從大模型轉移到小模型,確保壓縮後的 Nemotron Nano 2 依然能保有優異的準確度。

經過這趟精密的瘦身之旅,Nemotron Nano 2 成功將參數壓縮到 90 億左右,使其能夠在記憶體有限的環境中高效運行。

獨特的「可控思考」機制:開發者如何平衡延遲與準確度?

在處理複雜問題時,語言模型通常需要一個「內部思考」的過程,也就是所謂的思維鏈(Chain-of-Thought)。這個過程會生成中間的推理步驟,有助於提高最終答案的準確性,但同時也會增加運算時間和延遲。

Nemotron Nano 2 引入了一個非常實用的「可控思考」(Toggleable Reasoning)機制。開發者可以在輸入提示(prompt)中加入特殊的控制標籤,例如 <think> 來啟動模型的詳細推理模式,或者在不需要複雜思考的場景下,讓模型直接生成答案。

更有趣的是,開發者還可以設定一個「思考預算」(thinking budget),例如限制模型只能在內部生成 1000 個 token 的推理步驟。一旦達到預算,模型就會被引導結束思考,並產出最終答案。開發者可以根據具體的應用需求,在準確度與反應速度之間做出最佳的權衡。

訓練資料的秘密:不只量大,更重質精

一個模型的強大與否,訓練資料是關鍵。NVIDIA 在其技術報告中詳細介紹了 Nemotron Nano 2 背後龐大且精良的資料集。其預訓練資料混合了十三種不同類型的資料,並採用了三階段的課程學習(Curriculum Learning)策略。

在訓練初期,模型會接觸更多樣化的資料,以建立廣泛的知識基礎。隨著訓練的推進,資料的混合比例會逐漸偏向高品質的來源,例如維基百科、學術論文和經過篩選的程式碼,以強化其深度推理與專業能力。資料來源涵蓋了英文、中文、日文、德文等 15 種語言,確保了其多語言處理能力。在數學和程式碼資料的處理上,NVIDIA 特別確保公式和程式碼結構的完整性,這也是 Nemotron Nano 2 在這兩個領域表現出色的重要原因。

TN科技筆記的觀點

多年來,大型語言模型(LLM)的發展幾乎與 Transformer 架構劃上等號。然而,所有開發者都清楚其核心瓶頸:自注意力(Self-Attention)機制在處理長文本時,運算成本會呈二次方增長。這使得我們在追求更長上下文(Context Length)的同時,也必須面對高昂到令人卻步的硬體成本與延遲。Nemotron Nano 2 最值得稱讚之處,在於它沒有盲目追求單一架構的極致,而是採用了一種極為務實的「混合動力」設計。

佔比高達 92% 的 Mamba-2 層,憑藉其近似線性的擴展能力,完美地解決了長序列處理的效能問題。它讓模型在處理數萬、甚至數十萬 token 的文本時,依然能保持飛快的速度和較低的資源消耗。保留的 8% 稀疏 Transformer 層,則像是在關鍵時刻介入的渦輪增壓系統。它專門用來捕捉那些 Mamba 架構可能忽略的、跨越文本全局的複雜依賴關係,確保模型在進行深度推理時,不會犧牲準確度。

混合架構也引發新的思考,對於不同規模、不同應用的模型,這個「混合架構」可能需要調整。例如,一個專注於程式碼生成的模型,是否需要更多 Transformer 層來理解複雜的程式碼結構?一個專門用於長篇報告摘要的模型,是否可以更大膽地採用 99% 的 Mamba 架構?未來模型架構的設計,可能將從「堆疊更多層」,轉向「如何調配不同架構的最佳比例」。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
37會員
140內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/08/18
大型語言模型(LLM)雖然能力強大,但其「推理」(Inference)階段,也就是實際生成內容、提供服務的過程極度消耗 GPU 資源,驅動這一切的龐大算力成本,正成為所有開發者與企業的巨大挑戰。
2025/08/18
大型語言模型(LLM)雖然能力強大,但其「推理」(Inference)階段,也就是實際生成內容、提供服務的過程極度消耗 GPU 資源,驅動這一切的龐大算力成本,正成為所有開發者與企業的巨大挑戰。
2025/08/17
在 AI 領域,我們似乎已經習慣了「越大越好」的軍備競賽,模型參數從數十億一路飆升到上兆。然而,Google 在 2025 年 8 月 14 日發布的新模型,卻給這個趨勢踩下了一個有趣的煞車。今天我們要談的主角是 Gemma 3 270M,一個僅有 2.7 億參數的「小而美」AI 模型。
Thumbnail
2025/08/17
在 AI 領域,我們似乎已經習慣了「越大越好」的軍備競賽,模型參數從數十億一路飆升到上兆。然而,Google 在 2025 年 8 月 14 日發布的新模型,卻給這個趨勢踩下了一個有趣的煞車。今天我們要談的主角是 Gemma 3 270M,一個僅有 2.7 億參數的「小而美」AI 模型。
Thumbnail
2025/08/12
生成式 AI 已經能創作圖片、影片與音樂,但能否直接生成一個可探索、可互動的 3D 世界?Google DeepMind 在 2025 年 8 月 5 日發布的 Genie 3 正是這個方向的重要突破。它不只是視覺內容生成,而是提供了一個能「在世界中行動」的 AI 平台
Thumbnail
2025/08/12
生成式 AI 已經能創作圖片、影片與音樂,但能否直接生成一個可探索、可互動的 3D 世界?Google DeepMind 在 2025 年 8 月 5 日發布的 Genie 3 正是這個方向的重要突破。它不只是視覺內容生成,而是提供了一個能「在世界中行動」的 AI 平台
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
未來的AI處理器發展趨勢將會持續專注於提升效能並降低能源消耗。 以下是一些可能的發展方向: 新一代NPU:例如,英特爾已經發表了新一代AI PC處理器Lunar Lake,該處理器的NPU算力是前一代的3倍多,且耗能較前一代低40%。 多模態生成式AI的興起:這種AI結合了文本、圖像、視頻等多
Thumbnail
未來的AI處理器發展趨勢將會持續專注於提升效能並降低能源消耗。 以下是一些可能的發展方向: 新一代NPU:例如,英特爾已經發表了新一代AI PC處理器Lunar Lake,該處理器的NPU算力是前一代的3倍多,且耗能較前一代低40%。 多模態生成式AI的興起:這種AI結合了文本、圖像、視頻等多
Thumbnail
NVIDIA的新目標是成為支援企業開發AI應用程式的「AI晶圓代工」,提供技術、專業知識和基礎設施,幫助實現AI應用。具體而言,NVIDIA將提供GPU、自主CPU「Grace」、超級計算機及其硬體,還有軟體和工具,以滿足客戶需求。
Thumbnail
NVIDIA的新目標是成為支援企業開發AI應用程式的「AI晶圓代工」,提供技術、專業知識和基礎設施,幫助實現AI應用。具體而言,NVIDIA將提供GPU、自主CPU「Grace」、超級計算機及其硬體,還有軟體和工具,以滿足客戶需求。
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
NVIDIA在人工智慧處理專用GPU領域的地位牢固,但面臨著來自英特爾和超微半導體等競爭對手的反擊。新興企業也加入競爭,使得競爭更加激烈。未來,合作關係將變得至關重要,NVIDIA和其他競爭對手在激烈的競爭中脫穎而出的關鍵。
Thumbnail
NVIDIA在人工智慧處理專用GPU領域的地位牢固,但面臨著來自英特爾和超微半導體等競爭對手的反擊。新興企業也加入競爭,使得競爭更加激烈。未來,合作關係將變得至關重要,NVIDIA和其他競爭對手在激烈的競爭中脫穎而出的關鍵。
Thumbnail
2022年11月30日,ChatGPT的登場對全球造成了顯著衝擊。隨後,2024年2月15日,OpenAI發布了能夠將文字轉換為圖像的AI模型SORA,這一創新再次引發了巨大的震動。 這兩大創新引發的全球算力需求的增長幅度是前所未有的。 需求的瞬間迅猛增長,但供應的增加卻需要更長的時間。Nv
Thumbnail
2022年11月30日,ChatGPT的登場對全球造成了顯著衝擊。隨後,2024年2月15日,OpenAI發布了能夠將文字轉換為圖像的AI模型SORA,這一創新再次引發了巨大的震動。 這兩大創新引發的全球算力需求的增長幅度是前所未有的。 需求的瞬間迅猛增長,但供應的增加卻需要更長的時間。Nv
Thumbnail
NVIDIA的Blackwell計算平台代表著實時生成式AI應用的重大進步,旨在滿足跨行業挑戰。此平台提升了計算效能,促進了AI在實體世界的應用,並對從自動駕駛到醫療診斷等多個領域產生了深遠影響。NVIDIA 黃仁勳的願景是將AI技術從虛擬世界帶入現實,為創新開闢新道路,一個更加智慧和互聯的未來。
Thumbnail
NVIDIA的Blackwell計算平台代表著實時生成式AI應用的重大進步,旨在滿足跨行業挑戰。此平台提升了計算效能,促進了AI在實體世界的應用,並對從自動駕駛到醫療診斷等多個領域產生了深遠影響。NVIDIA 黃仁勳的願景是將AI技術從虛擬世界帶入現實,為創新開闢新道路,一個更加智慧和互聯的未來。
Thumbnail
近期Nvidia憑一己之力掀起AI浪潮,帶動半導體行業、AI相關供應鏈的估值上漲。而本篇要講的美超微,正是AI產業鏈的受惠者之一。
Thumbnail
近期Nvidia憑一己之力掀起AI浪潮,帶動半導體行業、AI相關供應鏈的估值上漲。而本篇要講的美超微,正是AI產業鏈的受惠者之一。
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News