vocus logo

方格子 vocus

Native Sparse Attention (NSA) 機制概述 Native Sparse Attention

更新 發佈閱讀 2 分鐘
vocus|新世代的創作平台

Native Sparse Attention (NSA) 機制概述


Native Sparse Attention (NSA) 是一種新型的稀疏注意力機制,旨在提高長文本的訓練和推理效率。


這一機制由中國的人工智慧公司 DeepSeek 於 2025 年 2 月 18 日正式發布,並在其技術論文中詳細介紹了其設計理念和核心組件。


NSA 的核心特點


硬體對齊:

NSA 的設計考慮了現代硬體的特性,旨在加速推理過程,同時降低預訓練的成本,而不會犧牲模型的性能。


動態層次稀疏策略:

這一策略結合了粗粒度的標記壓縮和細粒度的標記選擇,能夠在保持全局上下文的同時,顯著提高處理速度。


高效的長文本處理:

NSA 特別適用於超快速的長文本訓練與推理,這使得它在處理大規模數據時表現出色。

技術創新


NSA 機制的創新之處在於其能夠在訓練過程中進行端到端的優化,並在推理階段顯著提高效率。


這一機制的推出被認為是對現有全注意力模型的一次重要補充,因為它在多項基準測試中表現出色,尤其是在長文本任務和基於指令的推理方面。

市場影響


NSA 的發布引起了市場的廣泛關注,相關的 AI 代幣如 SingularityNET (AGIX) 和 Fetch.AI (FET) 在發布後的短時間內出現了顯著的價格上漲,顯示出市場對於 NSA 能夠推動 AI 技術進步的信心。


Native Sparse Attention 機制的推出不僅在技術上具有創新性,還可能對 AI 相關的市場產生深遠的影響。

留言
avatar-img
AI.ESG.數位轉型顧問 沈重宗
85會員
642內容數
2025/04/30
哈囉~各位關心國際貿易的朋友們!👋 最近美國零售業跟川普政府的關稅大戰簡直比八點檔還精彩啊!😆 讓我們用台灣人最愛的「接地氣」方式,來看看這齣「關稅風暴」到底演到哪一集了~ 🛒 零售巨頭們的「求生實錄」 1. 沃爾瑪帶頭造反? 沒錯!根據最新消息,沃爾瑪、塔吉特這
Thumbnail
2025/04/30
哈囉~各位關心國際貿易的朋友們!👋 最近美國零售業跟川普政府的關稅大戰簡直比八點檔還精彩啊!😆 讓我們用台灣人最愛的「接地氣」方式,來看看這齣「關稅風暴」到底演到哪一集了~ 🛒 零售巨頭們的「求生實錄」 1. 沃爾瑪帶頭造反? 沒錯!根據最新消息,沃爾瑪、塔吉特這
Thumbnail
2025/04/30
砍外包、拼自動化 Duolingo 大變身!🔥宣佈全面擁抱 AI 當「神隊友」💻,執行長 Luis von Ahn 親曝戰略藍圖:「砍外包、拼自動化,讓員工做更有價值的事!」👊 ✨ 轉型亮點一次看 ✨ 1. AI 接管重複性工作🔄 → 逐步淘汰外包人力,用 A
Thumbnail
2025/04/30
砍外包、拼自動化 Duolingo 大變身!🔥宣佈全面擁抱 AI 當「神隊友」💻,執行長 Luis von Ahn 親曝戰略藍圖:「砍外包、拼自動化,讓員工做更有價值的事!」👊 ✨ 轉型亮點一次看 ✨ 1. AI 接管重複性工作🔄 → 逐步淘汰外包人力,用 A
Thumbnail
2025/04/30
AI超會答,但你真的會問嗎?🤔 學會「提問力」讓你效率飆升! 你是不是也遇過這些狀況?👉 問AI「幫我寫旅遊行程」,結果它給你一份「從台北飛巴黎」的夢幻計畫(但預算只有5000台幣😅);或是請AI寫文案,卻生出一堆「正確但沒人想看」的廢話?問題不在AI,而是你「不會問」!
Thumbnail
2025/04/30
AI超會答,但你真的會問嗎?🤔 學會「提問力」讓你效率飆升! 你是不是也遇過這些狀況?👉 問AI「幫我寫旅遊行程」,結果它給你一份「從台北飛巴黎」的夢幻計畫(但預算只有5000台幣😅);或是請AI寫文案,卻生出一堆「正確但沒人想看」的廢話?問題不在AI,而是你「不會問」!
Thumbnail
看更多
你可能也想看
Thumbnail
Native Sparse Attention (NSA) 機制概述 Native Sparse Attention (NSA) 是一種新型的稀疏注意力機制,旨在提高長文本的訓練和推理效率。 這一機制由中國的人工智慧公司 DeepSeek 於 2025 年 2 月 18 日正式發布,並在
Thumbnail
Native Sparse Attention (NSA) 機制概述 Native Sparse Attention (NSA) 是一種新型的稀疏注意力機制,旨在提高長文本的訓練和推理效率。 這一機制由中國的人工智慧公司 DeepSeek 於 2025 年 2 月 18 日正式發布,並在
Thumbnail
中國AI模型DeepSeek崛起,其低成本訓練模式引發市場關注,探討其對臺灣伺服器ODM產業的影響,以及長期發展潛力。
Thumbnail
中國AI模型DeepSeek崛起,其低成本訓練模式引發市場關注,探討其對臺灣伺服器ODM產業的影響,以及長期發展潛力。
Thumbnail
所謂「知己知彼,百戰百勝」,不論你喜不喜歡、認不認同,都不能不花點時間了解 DeepSeek 為什麼會這樣橫空出世?又為什麼爆紅,引起舉世震盪? 在這段影片中,我們將深入探討 DeepSeek R1 這篇引起舉世震盪的論文,揭示如何透過強化學習大幅提升大型語言模型的推理能力....
Thumbnail
所謂「知己知彼,百戰百勝」,不論你喜不喜歡、認不認同,都不能不花點時間了解 DeepSeek 為什麼會這樣橫空出世?又為什麼爆紅,引起舉世震盪? 在這段影片中,我們將深入探討 DeepSeek R1 這篇引起舉世震盪的論文,揭示如何透過強化學習大幅提升大型語言模型的推理能力....
Thumbnail
本文探討大型語言模型的發展趨勢,並以DeepSeek-V3為例,分析其在模型架構、訓練方法和效率成本上的改進。作者指出,大型語言模型的競爭焦點已轉向實際應用和數據的運用,而非模型間微小的性能差異。
Thumbnail
本文探討大型語言模型的發展趨勢,並以DeepSeek-V3為例,分析其在模型架構、訓練方法和效率成本上的改進。作者指出,大型語言模型的競爭焦點已轉向實際應用和數據的運用,而非模型間微小的性能差異。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
戰略上我們要把AI當小嘍囉,戰術上我們要把AI當大佬。
Thumbnail
戰略上我們要把AI當小嘍囉,戰術上我們要把AI當大佬。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
本文以阿峰老師的角度,深入探討中國 AI 新創公司 DeepSeek 的崛起。文章剖析其低成本高效能的技術特色、產品應用,以及對全球 AI 格局帶來的影響。DeepSeek 的成功不僅挑戰了傳統 AI 開發觀念,也為台灣帶來 AI 產業發展的機會與挑戰。
Thumbnail
本文以阿峰老師的角度,深入探討中國 AI 新創公司 DeepSeek 的崛起。文章剖析其低成本高效能的技術特色、產品應用,以及對全球 AI 格局帶來的影響。DeepSeek 的成功不僅挑戰了傳統 AI 開發觀念,也為台灣帶來 AI 產業發展的機會與挑戰。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
阿峰老師解析BBC報導,揭示中國發展AI的「國家隊」策略。其藉由早期STEM教學培養人才、DeepSeek等低成本高效技術、國家強力支持與「彎道超車」創新,全面推動AI融入社會。儘管成就顯著,但國際上對隱私和信任的疑慮仍是其重大挑戰。台灣應借鏡此經驗,思考自身發展路徑。
Thumbnail
阿峰老師解析BBC報導,揭示中國發展AI的「國家隊」策略。其藉由早期STEM教學培養人才、DeepSeek等低成本高效技術、國家強力支持與「彎道超車」創新,全面推動AI融入社會。儘管成就顯著,但國際上對隱私和信任的疑慮仍是其重大挑戰。台灣應借鏡此經驗,思考自身發展路徑。
Thumbnail
免費增強版 DeepSeek最新更新概述 背景信息 DeepSeek是一款由杭州深度求索人工智能基礎技術研究有限公司開發的AI模型,近年來在全球範圍內引起了廣泛關注。其最新版本DeepSeek V3-0324於2025年3月24日發布,標誌著該模型在編程能力、推理能力和上下文理解等多個方面的顯
Thumbnail
免費增強版 DeepSeek最新更新概述 背景信息 DeepSeek是一款由杭州深度求索人工智能基礎技術研究有限公司開發的AI模型,近年來在全球範圍內引起了廣泛關注。其最新版本DeepSeek V3-0324於2025年3月24日發布,標誌著該模型在編程能力、推理能力和上下文理解等多個方面的顯
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News