Native Sparse Attention (NSA) 機制概述 Native Sparse Attention

更新於 2025/04/21發佈於 2025/02/18閱讀時間約 2 分鐘

Native Sparse Attention (NSA) 機制概述

Native Sparse Attention (NSA) 是一種新型的稀疏注意力機制，旨在提高長文本的訓練和推理效率。

這一機制由中國的人工智慧公司 DeepSeek 於 2025 年 2 月 18 日正式發布，並在其技術論文中詳細介紹了其設計理念和核心組件。

NSA 的核心特點

硬體對齊：

NSA 的設計考慮了現代硬體的特性，旨在加速推理過程，同時降低預訓練的成本，而不會犧牲模型的性能。

動態層次稀疏策略：

這一策略結合了粗粒度的標記壓縮和細粒度的標記選擇，能夠在保持全局上下文的同時，顯著提高處理速度。

高效的長文本處理：

NSA 特別適用於超快速的長文本訓練與推理，這使得它在處理大規模數據時表現出色。

技術創新

NSA 機制的創新之處在於其能夠在訓練過程中進行端到端的優化，並在推理階段顯著提高效率。

這一機制的推出被認為是對現有全注意力模型的一次重要補充，因為它在多項基準測試中表現出色，尤其是在長文本任務和基於指令的推理方面。

市場影響

NSA 的發布引起了市場的廣泛關注，相關的 AI 代幣如 SingularityNET (AGIX) 和 Fetch.AI (FET) 在發布後的短時間內出現了顯著的價格上漲，顯示出市場對於 NSA 能夠推動 AI 技術進步的信心。

Native Sparse Attention 機制的推出不僅在技術上具有創新性，還可能對 AI 相關的市場產生深遠的影響。

AI.ESG.數位轉型顧問沈重宗

19會員

357內容數

留言

留言分享你的想法！

哈囉～各位關心國際貿易的朋友們！👋 最近美國零售業跟川普政府的關稅大戰簡直比八點檔還精彩啊！😆 讓我們用台灣人最愛的「接地氣」方式，來看看這齣「關稅風暴」到底演到哪一集了～ 🛒 零售巨頭們的「求生實錄」 1. 沃爾瑪帶頭造反？沒錯！根據最新消息，沃爾瑪、塔吉特這

砍外包、拼自動化 Duolingo 大變身！🔥宣佈全面擁抱 AI 當「神隊友」💻，執行長 Luis von Ahn 親曝戰略藍圖：「砍外包、拼自動化，讓員工做更有價值的事！」👊 ✨ 轉型亮點一次看 ✨ 1. AI 接管重複性工作🔄 → 逐步淘汰外包人力，用 A

AI超會答，但你真的會問嗎？🤔 學會「提問力」讓你效率飆升！你是不是也遇過這些狀況？👉 問AI「幫我寫旅遊行程」，結果它給你一份「從台北飛巴黎」的夢幻計畫（但預算只有5000台幣😅）；或是請AI寫文案，卻生出一堆「正確但沒人想看」的廢話？問題不在AI，而是你「不會問」！

哈囉～各位關心國際貿易的朋友們！👋 最近美國零售業跟川普政府的關稅大戰簡直比八點檔還精彩啊！😆 讓我們用台灣人最愛的「接地氣」方式，來看看這齣「關稅風暴」到底演到哪一集了～ 🛒 零售巨頭們的「求生實錄」 1. 沃爾瑪帶頭造反？沒錯！根據最新消息，沃爾瑪、塔吉特這

砍外包、拼自動化 Duolingo 大變身！🔥宣佈全面擁抱 AI 當「神隊友」💻，執行長 Luis von Ahn 親曝戰略藍圖：「砍外包、拼自動化，讓員工做更有價值的事！」👊 ✨ 轉型亮點一次看 ✨ 1. AI 接管重複性工作🔄 → 逐步淘汰外包人力，用 A

AI超會答，但你真的會問嗎？🤔 學會「提問力」讓你效率飆升！你是不是也遇過這些狀況？👉 問AI「幫我寫旅遊行程」，結果它給你一份「從台北飛巴黎」的夢幻計畫（但預算只有5000台幣😅）；或是請AI寫文案，卻生出一堆「正確但沒人想看」的廢話？問題不在AI，而是你「不會問」！