中國大陸 AI 又想彎道超車了!DeepSeek V3:低成本、高效能的開源大型語言模型

閱讀時間約 5 分鐘

開源陣營的 LLM DeepSeek V3 使用 Nvidia H800 GPU 進行訓練,用誇張低成本達到與 Claude 3.5 Sonnet 和 GPT 4o 相當的效果, 預訓練總成本僅為 532.8 萬美元,每百萬 Token 的價格可以壓到不到 $0.5 美金,是用 1/10 的價格達到 OpenAI 和 Anthropic 同級的水準。

raw-image


DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施,以及 FP8 混合精度訓練等技術,在保證模型效能的同時,顯著降低了開發資源的消耗。 這使得 DeepSeek-V3 成為一個極具成本效益的 LLM 解決方案,為更多團隊和研究者開闢了探索和應用大型語言模型的可能性。


以追擊速度來看,晶片限制法看來目前效果有限,中國團隊用不同的思路來捲大模型 ,未來要看看便宜是不是王道了?

我讓 NotebookLM 幫我讀了 paper,解釋 DeepSeek 如何做到用極低的成本做到和 OpenAI 與 Anthropic 同當的效能:

DeepSeek-V3 能以低成本達到與 OpenAI 和 Anthropic 相當的效果,主要歸功於以下幾個關鍵因素:

  • 模型架構的創新: DeepSeek-V3 採用了高效的混合專家 (MoE) 架構,並結合了多頭潛在注意力 (MLA) 和 DeepSeekMoE 技術。 這些技術使得模型在保持強大性能的同時,實現了高效的訓練和推理。 MLA 有助於在推理過程中減少鍵值 (KV) 快取。 DeepSeekMoE 則透過使用更細粒度的專家和隔離一些專家作為共享專家,實現了經濟高效的訓練。
  • 輔助損失無負載平衡策略: DeepSeek-V3 首創了這種策略,以最大程度地減少鼓勵負載平衡對模型性能造成的負面影響。 該策略透過動態調整每個專家的偏差項,在訓練過程中保持負載平衡,從而獲得比僅透過輔助損失鼓勵負載平衡的模型更好的性能。
  • 多標記預測訓練目標: DeepSeek-V3 採用了多標記預測 (MTP) 訓練目標,透過擴展每個位置的預測範圍到多個未來標記,提高了整體性能。 這有助於提高數據效率,並使模型能夠預先規劃其表示,以便更好地預測未來標記。
  • 高效的訓練框架和基礎設施: DeepSeek-V3 的訓練由 HAI-LLM 框架支持,這是一個由 DeepSeek 工程師從頭開始構建的高效輕量級訓練框架。 該框架採用了管道並行、專家並行和數據並行等技術,並對訓練流程進行了精心優化,以最大程度地提高訓練效率。 這些優化包括: DualPipe 算法,用於高效的管道並行,減少管道氣泡,並透過計算-通信重疊隱藏大部分訓練期間的通信。 高效的跨節點全對全通信內核,充分利用 InfiniBand 和 NVLink 帶寬。 精心優化的內存佔用,無需使用成本高昂的張量並行即可訓練 DeepSeek-V3。
  • FP8 混合精度訓練: DeepSeek-V3 利用 FP8 數據格式進行訓練,透過支持 FP8 計算和存儲,既加快了訓練速度,又減少了 GPU 內存使用量。 為了確保數值穩定性,模型在特定組件(如嵌入模塊、輸出頭、MoE 門控模塊、歸一化運算符和注意力運算符)中保留了原始精度(例如 BF16 或 FP32)。
  • 知識蒸餾: 在訓練的後期階段,DeepSeek-V3 從 DeepSeek-R1 系列模型中提取了推理能力,特別是在數學和編程領域。 這種技術顯著提高了模型在需要複雜推理的任務上的性能。

總之,DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施,以及知識蒸餾技術,以極低的成本實現了與 OpenAI 和 Anthropic 模型相媲美的性能。 DeepSeek 團隊致力於開源模型的長期發展,並計劃在未來繼續研究和改進模型架構、訓練數據和深度思維能力,以進一步提高模型的智能和解決問題的能力。


協助解決中小型製造企業數位轉型問題,傳產公司的痛點是缺乏 IT專業人才,我們提供便捷的智慧物聯網系統“EDC高效資料收集與分散式控制系統”。協助貴公司非專業人員短期培訓,即可自主完成物聯網部署,快速實現資料採集、資料可視、資料存儲和資料分析,助力傳統製造中小企業的數位轉型! 業務營銷|專案管理|工廠營運|跨業合作
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
前陣子轟動美國的治安事件,Luigi Mangione 當街槍殺 UnitedHealthcare CEO,媒體發現 Mangione 他很喜歡 Gurwinder 這位作家的一篇文章〈Why You Are Probably An NPC〉。
人工智慧(AI)時代經濟模式的轉變,從「知識經濟」走向「配置經濟」。 AI 的出現使得許多過去被視為珍貴的知識技能(例如摘要能力)變得容易取得,因此經濟價值的創造不再主要來自於個人的知識儲備,而是 如何有效地配置和管理資源,包括 AI 模型本身。 未來工作者將從單純的「生產者」轉變為「管理者」
英國設計師 Rory Noble-Turner 設計的 3D 列印西洋棋組「Dune Chess Set」。 其設計理念是將沙子的流動性和不確定性融入棋子造型,藉由 Quartz 3D 列印技術呈現出沙子的紋理和質感,並運用視覺特效產業的 3D 建模工具,克服了技術上的難關。
想像一下,我們的大腦很厲害,能記住重要的東西,忘記不重要的細節。現在,有一種很酷的新技術叫做 “神經注意力記憶模型”(NAMM),它可以讓 Transformer 模型也像我們的大腦一樣聰明!
隨著 AI 技術的不斷進步,我們正處於一個重要的轉折點,超連結作為信息組織和知識表達的重要工具正在被取代。 這不僅影響我們獲取信息的方式,也可能改變我們思考和創造知識的基本模式。未來,我們需要重新評估如何在AI摘要與超連結之間找到平衡,以保持思考的深度與多樣性。
前陣子轟動美國的治安事件,Luigi Mangione 當街槍殺 UnitedHealthcare CEO,媒體發現 Mangione 他很喜歡 Gurwinder 這位作家的一篇文章〈Why You Are Probably An NPC〉。
人工智慧(AI)時代經濟模式的轉變,從「知識經濟」走向「配置經濟」。 AI 的出現使得許多過去被視為珍貴的知識技能(例如摘要能力)變得容易取得,因此經濟價值的創造不再主要來自於個人的知識儲備,而是 如何有效地配置和管理資源,包括 AI 模型本身。 未來工作者將從單純的「生產者」轉變為「管理者」
英國設計師 Rory Noble-Turner 設計的 3D 列印西洋棋組「Dune Chess Set」。 其設計理念是將沙子的流動性和不確定性融入棋子造型,藉由 Quartz 3D 列印技術呈現出沙子的紋理和質感,並運用視覺特效產業的 3D 建模工具,克服了技術上的難關。
想像一下,我們的大腦很厲害,能記住重要的東西,忘記不重要的細節。現在,有一種很酷的新技術叫做 “神經注意力記憶模型”(NAMM),它可以讓 Transformer 模型也像我們的大腦一樣聰明!
隨著 AI 技術的不斷進步,我們正處於一個重要的轉折點,超連結作為信息組織和知識表達的重要工具正在被取代。 這不僅影響我們獲取信息的方式,也可能改變我們思考和創造知識的基本模式。未來,我們需要重新評估如何在AI摘要與超連結之間找到平衡,以保持思考的深度與多樣性。
你可能也想看
Google News 追蹤
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Google Brain 開發了 Tensor2Tensor(T2T),讓深度學習開發變得更加容易,T2T 是 TensorFlow 的擴展,包含深度學習模型庫,其中包
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 33中,見識了基於 Transformer 的 Google 翻譯威力,評論如下: Google 翻譯似乎已經解決了 Corefer
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 生成式人工智慧模糊了雲端平台、框架、函式庫、語言和模型之間的界線,以下展開幾項事實: OpenAI 部署了一個Transformer API,幾乎不需要程式設計。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Google Brain 開發了 Tensor2Tensor(T2T),讓深度學習開發變得更加容易,T2T 是 TensorFlow 的擴展,包含深度學習模型庫,其中包
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 33中,見識了基於 Transformer 的 Google 翻譯威力,評論如下: Google 翻譯似乎已經解決了 Corefer
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 生成式人工智慧模糊了雲端平台、框架、函式庫、語言和模型之間的界線,以下展開幾項事實: OpenAI 部署了一個Transformer API,幾乎不需要程式設計。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大