中國大陸 AI 又想彎道超車了!DeepSeek V3:低成本、高效能的開源大型語言模型

更新 發佈閱讀 5 分鐘

開源陣營的 LLM DeepSeek V3 使用 Nvidia H800 GPU 進行訓練,用誇張低成本達到與 Claude 3.5 Sonnet 和 GPT 4o 相當的效果, 預訓練總成本僅為 532.8 萬美元,每百萬 Token 的價格可以壓到不到 $0.5 美金,是用 1/10 的價格達到 OpenAI 和 Anthropic 同級的水準。

raw-image


DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施,以及 FP8 混合精度訓練等技術,在保證模型效能的同時,顯著降低了開發資源的消耗。 這使得 DeepSeek-V3 成為一個極具成本效益的 LLM 解決方案,為更多團隊和研究者開闢了探索和應用大型語言模型的可能性。


以追擊速度來看,晶片限制法看來目前效果有限,中國團隊用不同的思路來捲大模型 ,未來要看看便宜是不是王道了?

我讓 NotebookLM 幫我讀了 paper,解釋 DeepSeek 如何做到用極低的成本做到和 OpenAI 與 Anthropic 同當的效能:

DeepSeek-V3 能以低成本達到與 OpenAI 和 Anthropic 相當的效果,主要歸功於以下幾個關鍵因素:

  • 模型架構的創新: DeepSeek-V3 採用了高效的混合專家 (MoE) 架構,並結合了多頭潛在注意力 (MLA) 和 DeepSeekMoE 技術。 這些技術使得模型在保持強大性能的同時,實現了高效的訓練和推理。 MLA 有助於在推理過程中減少鍵值 (KV) 快取。 DeepSeekMoE 則透過使用更細粒度的專家和隔離一些專家作為共享專家,實現了經濟高效的訓練。
  • 輔助損失無負載平衡策略: DeepSeek-V3 首創了這種策略,以最大程度地減少鼓勵負載平衡對模型性能造成的負面影響。 該策略透過動態調整每個專家的偏差項,在訓練過程中保持負載平衡,從而獲得比僅透過輔助損失鼓勵負載平衡的模型更好的性能。
  • 多標記預測訓練目標: DeepSeek-V3 採用了多標記預測 (MTP) 訓練目標,透過擴展每個位置的預測範圍到多個未來標記,提高了整體性能。 這有助於提高數據效率,並使模型能夠預先規劃其表示,以便更好地預測未來標記。
  • 高效的訓練框架和基礎設施: DeepSeek-V3 的訓練由 HAI-LLM 框架支持,這是一個由 DeepSeek 工程師從頭開始構建的高效輕量級訓練框架。 該框架採用了管道並行、專家並行和數據並行等技術,並對訓練流程進行了精心優化,以最大程度地提高訓練效率。 這些優化包括: DualPipe 算法,用於高效的管道並行,減少管道氣泡,並透過計算-通信重疊隱藏大部分訓練期間的通信。 高效的跨節點全對全通信內核,充分利用 InfiniBand 和 NVLink 帶寬。 精心優化的內存佔用,無需使用成本高昂的張量並行即可訓練 DeepSeek-V3。
  • FP8 混合精度訓練: DeepSeek-V3 利用 FP8 數據格式進行訓練,透過支持 FP8 計算和存儲,既加快了訓練速度,又減少了 GPU 內存使用量。 為了確保數值穩定性,模型在特定組件(如嵌入模塊、輸出頭、MoE 門控模塊、歸一化運算符和注意力運算符)中保留了原始精度(例如 BF16 或 FP32)。
  • 知識蒸餾: 在訓練的後期階段,DeepSeek-V3 從 DeepSeek-R1 系列模型中提取了推理能力,特別是在數學和編程領域。 這種技術顯著提高了模型在需要複雜推理的任務上的性能。

總之,DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施,以及知識蒸餾技術,以極低的成本實現了與 OpenAI 和 Anthropic 模型相媲美的性能。 DeepSeek 團隊致力於開源模型的長期發展,並計劃在未來繼續研究和改進模型架構、訓練數據和深度思維能力,以進一步提高模型的智能和解決問題的能力。


留言
avatar-img
留言分享你的想法!
avatar-img
解浩靈的思考和紀錄本
9會員
141內容數
協助解決中小型製造企業數位轉型問題,傳產公司的痛點是缺乏 IT專業人才,我們提供便捷的智慧物聯網系統“EDC高效資料收集與分散式控制系統”。協助貴公司非專業人員短期培訓,即可自主完成物聯網部署,快速實現資料採集、資料可視、資料存儲和資料分析,助力傳統製造中小企業的數位轉型! 業務營銷|專案管理|工廠營運|跨業合作
2025/04/27
Sam Altman在TED 2025的演講內容 天文學家發現了正在快速瓦解並產生彗星尾巴的行星 高效資料收集與分散式控制(EDC)技術及其應用 以及40年前一本書對未來的預測,並比較其預測與當今科技發展的吻合程度。
Thumbnail
2025/04/27
Sam Altman在TED 2025的演講內容 天文學家發現了正在快速瓦解並產生彗星尾巴的行星 高效資料收集與分散式控制(EDC)技術及其應用 以及40年前一本書對未來的預測,並比較其預測與當今科技發展的吻合程度。
Thumbnail
2025/04/20
Y Combinator:為什麼垂直 AI 代理的規模可能比 SaaS 大10倍 思維邏輯自我訓練方案 中國沒有不痛,但選擇了不跪 《黑鏡》的陰影:當悲觀論述獨舞,我們該如何擁抱科技的未來?
Thumbnail
2025/04/20
Y Combinator:為什麼垂直 AI 代理的規模可能比 SaaS 大10倍 思維邏輯自我訓練方案 中國沒有不痛,但選擇了不跪 《黑鏡》的陰影:當悲觀論述獨舞,我們該如何擁抱科技的未來?
Thumbnail
2025/03/20
全球約有 12 分之 1 的男性是色盲,其中紅綠色盲最為常見,顏色在設計中不應是唯一的意義傳達方式。以葉子為例,假設我們設計一個應用程式來區分葉子的健康狀態,若僅用綠色表示健康、紅色表示枯萎,色盲使用者可能無法分辨。 色盲的普遍性與設計挑戰約有12分之一的男性(即約8%的人口)患有色盲,其中紅
Thumbnail
2025/03/20
全球約有 12 分之 1 的男性是色盲,其中紅綠色盲最為常見,顏色在設計中不應是唯一的意義傳達方式。以葉子為例,假設我們設計一個應用程式來區分葉子的健康狀態,若僅用綠色表示健康、紅色表示枯萎,色盲使用者可能無法分辨。 色盲的普遍性與設計挑戰約有12分之一的男性(即約8%的人口)患有色盲,其中紅
Thumbnail
看更多
你可能也想看
Thumbnail
這篇文章是一位咖啡愛好者分享他在雙11前的購物規劃。他不僅推薦了自己喜愛的咖啡豆品牌(如李董、音樂家系列)與手沖器材,還分享了實用的挑豆技巧。同時,他記錄了一項個人實驗:剛加入「蝦皮分潤計畫」,想測試透過分享真心喜愛的商品,是否能為自己的咖啡開銷「回血」。
Thumbnail
這篇文章是一位咖啡愛好者分享他在雙11前的購物規劃。他不僅推薦了自己喜愛的咖啡豆品牌(如李董、音樂家系列)與手沖器材,還分享了實用的挑豆技巧。同時,他記錄了一項個人實驗:剛加入「蝦皮分潤計畫」,想測試透過分享真心喜愛的商品,是否能為自己的咖啡開銷「回血」。
Thumbnail
出國旅行時,準備充分的行李能讓旅程更加輕鬆愉快!本文整理了大人旅行的全方位行李清單,從護照、信用卡到各種旅行好物一應俱全。特別是防盜小物、瞬熱熱水壺和過濾蓮蓬頭等必備單品,讓你的旅行更舒適、安全。此外,還介紹了蝦皮分潤計劃,讓你在購物的同時還能輕鬆賺取分潤,無論是準備行李還是購物分享,都是不錯的選擇
Thumbnail
出國旅行時,準備充分的行李能讓旅程更加輕鬆愉快!本文整理了大人旅行的全方位行李清單,從護照、信用卡到各種旅行好物一應俱全。特別是防盜小物、瞬熱熱水壺和過濾蓮蓬頭等必備單品,讓你的旅行更舒適、安全。此外,還介紹了蝦皮分潤計劃,讓你在購物的同時還能輕鬆賺取分潤,無論是準備行李還是購物分享,都是不錯的選擇
Thumbnail
摘要 (Abstract) DeepSeek 技術正在改變人工智慧(AI)的格局,通過提升軟體效率和採用開放存取模式,在不依賴龐大硬體資源的情況下推動 AI 發展。在中國市場,AI 模型變得更加精簡與高效,削減高端儲存材料(如 HBM)的需求;此外,與美國針對中國的技術制裁相關,中國 AI 企業正
Thumbnail
摘要 (Abstract) DeepSeek 技術正在改變人工智慧(AI)的格局,通過提升軟體效率和採用開放存取模式,在不依賴龐大硬體資源的情況下推動 AI 發展。在中國市場,AI 模型變得更加精簡與高效,削減高端儲存材料(如 HBM)的需求;此外,與美國針對中國的技術制裁相關,中國 AI 企業正
Thumbnail
Deepseek 的出現重挫 Nvidia 股價,引發市場震撼。本文深入淺出地介紹 Deepseek 的三大策略:學習策略 、回饋機制和資源配置,說明其如何突破傳統「高效能=高資源」的限制,為 AI 產業帶來新的可能性。
Thumbnail
Deepseek 的出現重挫 Nvidia 股價,引發市場震撼。本文深入淺出地介紹 Deepseek 的三大策略:學習策略 、回饋機制和資源配置,說明其如何突破傳統「高效能=高資源」的限制,為 AI 產業帶來新的可能性。
Thumbnail
DeepSeek以低成本和高效能引發關注,促使OpenAI宣布即將推出ChatGPT-5,Google升級了Gemini AI,馬斯克的xAI則發布了Grok3。Grok3採用「思維鏈」推理機制,具備多版本設計,並整合了 DeepSearch 和Big Brain模式,提升了推理能力和信息檢索效率。
Thumbnail
DeepSeek以低成本和高效能引發關注,促使OpenAI宣布即將推出ChatGPT-5,Google升級了Gemini AI,馬斯克的xAI則發布了Grok3。Grok3採用「思維鏈」推理機制,具備多版本設計,並整合了 DeepSearch 和Big Brain模式,提升了推理能力和信息檢索效率。
Thumbnail
@最近中國的人工智慧軟體deepseek橫空出世,標榜著便宜,輕量,開源,而且功能和美國上千億開發的人工智慧openAI,google 的AI程式功能差不多,使得這款中國的人工智慧deepseek,讓美國股市投資人對美國的人工智慧股票失去信心,大量拋售人工智慧股票,造成了美國的股市大震盪,人工
Thumbnail
@最近中國的人工智慧軟體deepseek橫空出世,標榜著便宜,輕量,開源,而且功能和美國上千億開發的人工智慧openAI,google 的AI程式功能差不多,使得這款中國的人工智慧deepseek,讓美國股市投資人對美國的人工智慧股票失去信心,大量拋售人工智慧股票,造成了美國的股市大震盪,人工
Thumbnail
近期,DeepSeek V3的出現引爆了全球科技業和矽谷的恐慌,直接嚇壞 Meta! 除了各項數據的表現不俗,最關鍵的,是這個來自中國血統,可與 ChatGPT 抗衡的 DeepSeek, 其最新AI模組 V3 只花了557萬美元訓練,甚至比美國科技業某些高管的年薪還低...
Thumbnail
近期,DeepSeek V3的出現引爆了全球科技業和矽谷的恐慌,直接嚇壞 Meta! 除了各項數據的表現不俗,最關鍵的,是這個來自中國血統,可與 ChatGPT 抗衡的 DeepSeek, 其最新AI模組 V3 只花了557萬美元訓練,甚至比美國科技業某些高管的年薪還低...
Thumbnail
中國AI新創公司DeepSeek推出全新AI訓練模組,成本低於Open AI的ChatGPT,引發美國科技股震盪。本文分析DeepSeek的背景、技術來源、成本效益以及對AI產業和美國科技巨頭的影響,並探討其對AI普及化的促進作用和對晶片產業的衝擊。
Thumbnail
中國AI新創公司DeepSeek推出全新AI訓練模組,成本低於Open AI的ChatGPT,引發美國科技股震盪。本文分析DeepSeek的背景、技術來源、成本效益以及對AI產業和美國科技巨頭的影響,並探討其對AI普及化的促進作用和對晶片產業的衝擊。
Thumbnail
摘要 摩根士丹利的最新報告針對深度學習模型DeepSeek的影響進行了深入分析,並重申了對人工智慧(AI)晶片市場的樂觀看法。報告中提到,儘管美國雲服務提供商(CSPs)維持了相似的AI資本支出,但對中國AI市場和聯發科的看法更加積極。此外,報告強調了DeepSeek在降低成本方面的潛力,並指出N
Thumbnail
摘要 摩根士丹利的最新報告針對深度學習模型DeepSeek的影響進行了深入分析,並重申了對人工智慧(AI)晶片市場的樂觀看法。報告中提到,儘管美國雲服務提供商(CSPs)維持了相似的AI資本支出,但對中國AI市場和聯發科的看法更加積極。此外,報告強調了DeepSeek在降低成本方面的潛力,並指出N
Thumbnail
最近,中國AI新創公司DeepSeek推出了一款低成本的開源大型語言模型,聲稱性能可媲美美國的ChatGPT。恰恰引發了美國半導體股價,尤其有輝達(NVIDIA)與台積電ADR雙雙大跌,引發市場恐慌,美股要GG了嗎? 今天,就讓我們透過這個案例,重新探討 指數投資與分散風險的核心概念!
Thumbnail
最近,中國AI新創公司DeepSeek推出了一款低成本的開源大型語言模型,聲稱性能可媲美美國的ChatGPT。恰恰引發了美國半導體股價,尤其有輝達(NVIDIA)與台積電ADR雙雙大跌,引發市場恐慌,美股要GG了嗎? 今天,就讓我們透過這個案例,重新探討 指數投資與分散風險的核心概念!
Thumbnail
中國的 DeepSeek-R1 模型,居然只用 1/30 成本,打造出堪比 O1 模型效能,也掀起市場對硬體需求擔憂,甚至引發美股半導體硬體大跌。但與此同時,掌握終端通路、軟體的廠商,股價反而逆勢上漲。 本文將會分享,在 AI 軟體應用爆發的 2025 年,該如何投資美股題材?ETF 怎麼選?
Thumbnail
中國的 DeepSeek-R1 模型,居然只用 1/30 成本,打造出堪比 O1 模型效能,也掀起市場對硬體需求擔憂,甚至引發美股半導體硬體大跌。但與此同時,掌握終端通路、軟體的廠商,股價反而逆勢上漲。 本文將會分享,在 AI 軟體應用爆發的 2025 年,該如何投資美股題材?ETF 怎麼選?
Thumbnail
 DeepSeek的事件解讀與評論對美股影響 近日DeepSeek 的推出在市場掀起一波熱議,作為一個僅耗資 560 萬美元完成的開源大型語言模型,DeepSeek 展現了低成本與快速開發的優勢,其成果被部分人視為對 OpenAI 和 Google 壟斷地位的潛在挑戰。
Thumbnail
 DeepSeek的事件解讀與評論對美股影響 近日DeepSeek 的推出在市場掀起一波熱議,作為一個僅耗資 560 萬美元完成的開源大型語言模型,DeepSeek 展現了低成本與快速開發的優勢,其成果被部分人視為對 OpenAI 和 Google 壟斷地位的潛在挑戰。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News