Native Sparse Attention (NSA) 機制概述
Native Sparse Attention (NSA) 是一種新型的稀疏注意力機制,旨在提高長文本的訓練和推理效率。
這一機制由中國的人工智慧公司 DeepSeek 於 2025 年 2 月 18 日正式發布,並在其技術論文中詳細介紹了其設計理念和核心組件。
NSA 的核心特點
硬體對齊:
NSA 的設計考慮了現代硬體的特性,旨在加速推理過程,同時降低預訓練的成本,而不會犧牲模型的性能。
動態層次稀疏策略:
這一策略結合了粗粒度的標記壓縮和細粒度的標記選擇,能夠在保持全局上下文的同時,顯著提高處理速度。
高效的長文本處理:
NSA 特別適用於超快速的長文本訓練與推理,這使得它在處理大規模數據時表現出色。
技術創新
NSA 機制的創新之處在於其能夠在訓練過程中進行端到端的優化,並在推理階段顯著提高效率。
這一機制的推出被認為是對現有全注意力模型的一次重要補充,因為它在多項基準測試中表現出色,尤其是在長文本任務和基於指令的推理方面。
市場影響
NSA 的發布引起了市場的廣泛關注,相關的 AI 代幣如 SingularityNET (AGIX) 和 Fetch.AI (FET) 在發布後的短時間內出現了顯著的價格上漲,顯示出市場對於 NSA 能夠推動 AI 技術進步的信心。
Native Sparse Attention 機制的推出不僅在技術上具有創新性,還可能對 AI 相關的市場產生深遠的影響。