中國大陸 AI 又想彎道超車了!DeepSeek V3:低成本、高效能的開源大型語言模型

更新 發佈閱讀 5 分鐘

開源陣營的 LLM DeepSeek V3 使用 Nvidia H800 GPU 進行訓練,用誇張低成本達到與 Claude 3.5 Sonnet 和 GPT 4o 相當的效果, 預訓練總成本僅為 532.8 萬美元,每百萬 Token 的價格可以壓到不到 $0.5 美金,是用 1/10 的價格達到 OpenAI 和 Anthropic 同級的水準。

raw-image


DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施,以及 FP8 混合精度訓練等技術,在保證模型效能的同時,顯著降低了開發資源的消耗。 這使得 DeepSeek-V3 成為一個極具成本效益的 LLM 解決方案,為更多團隊和研究者開闢了探索和應用大型語言模型的可能性。


以追擊速度來看,晶片限制法看來目前效果有限,中國團隊用不同的思路來捲大模型 ,未來要看看便宜是不是王道了?

我讓 NotebookLM 幫我讀了 paper,解釋 DeepSeek 如何做到用極低的成本做到和 OpenAI 與 Anthropic 同當的效能:

DeepSeek-V3 能以低成本達到與 OpenAI 和 Anthropic 相當的效果,主要歸功於以下幾個關鍵因素:

  • 模型架構的創新: DeepSeek-V3 採用了高效的混合專家 (MoE) 架構,並結合了多頭潛在注意力 (MLA) 和 DeepSeekMoE 技術。 這些技術使得模型在保持強大性能的同時,實現了高效的訓練和推理。 MLA 有助於在推理過程中減少鍵值 (KV) 快取。 DeepSeekMoE 則透過使用更細粒度的專家和隔離一些專家作為共享專家,實現了經濟高效的訓練。
  • 輔助損失無負載平衡策略: DeepSeek-V3 首創了這種策略,以最大程度地減少鼓勵負載平衡對模型性能造成的負面影響。 該策略透過動態調整每個專家的偏差項,在訓練過程中保持負載平衡,從而獲得比僅透過輔助損失鼓勵負載平衡的模型更好的性能。
  • 多標記預測訓練目標: DeepSeek-V3 採用了多標記預測 (MTP) 訓練目標,透過擴展每個位置的預測範圍到多個未來標記,提高了整體性能。 這有助於提高數據效率,並使模型能夠預先規劃其表示,以便更好地預測未來標記。
  • 高效的訓練框架和基礎設施: DeepSeek-V3 的訓練由 HAI-LLM 框架支持,這是一個由 DeepSeek 工程師從頭開始構建的高效輕量級訓練框架。 該框架採用了管道並行、專家並行和數據並行等技術,並對訓練流程進行了精心優化,以最大程度地提高訓練效率。 這些優化包括: DualPipe 算法,用於高效的管道並行,減少管道氣泡,並透過計算-通信重疊隱藏大部分訓練期間的通信。 高效的跨節點全對全通信內核,充分利用 InfiniBand 和 NVLink 帶寬。 精心優化的內存佔用,無需使用成本高昂的張量並行即可訓練 DeepSeek-V3。
  • FP8 混合精度訓練: DeepSeek-V3 利用 FP8 數據格式進行訓練,透過支持 FP8 計算和存儲,既加快了訓練速度,又減少了 GPU 內存使用量。 為了確保數值穩定性,模型在特定組件(如嵌入模塊、輸出頭、MoE 門控模塊、歸一化運算符和注意力運算符)中保留了原始精度(例如 BF16 或 FP32)。
  • 知識蒸餾: 在訓練的後期階段,DeepSeek-V3 從 DeepSeek-R1 系列模型中提取了推理能力,特別是在數學和編程領域。 這種技術顯著提高了模型在需要複雜推理的任務上的性能。

總之,DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施,以及知識蒸餾技術,以極低的成本實現了與 OpenAI 和 Anthropic 模型相媲美的性能。 DeepSeek 團隊致力於開源模型的長期發展,並計劃在未來繼續研究和改進模型架構、訓練數據和深度思維能力,以進一步提高模型的智能和解決問題的能力。


留言
avatar-img
解浩靈的思考和紀錄本
10會員
188內容數
協助解決中小型製造企業數位轉型問題,傳產公司的痛點是缺乏 IT專業人才,我們提供便捷的智慧物聯網系統“EDC高效資料收集與分散式控制系統”。協助貴公司非專業人員短期培訓,即可自主完成物聯網部署,快速實現資料採集、資料可視、資料存儲和資料分析,助力傳統製造中小企業的數位轉型! 業務營銷|專案管理|工廠營運|跨業合作
2025/04/27
Sam Altman在TED 2025的演講內容 天文學家發現了正在快速瓦解並產生彗星尾巴的行星 高效資料收集與分散式控制(EDC)技術及其應用 以及40年前一本書對未來的預測,並比較其預測與當今科技發展的吻合程度。
Thumbnail
2025/04/27
Sam Altman在TED 2025的演講內容 天文學家發現了正在快速瓦解並產生彗星尾巴的行星 高效資料收集與分散式控制(EDC)技術及其應用 以及40年前一本書對未來的預測,並比較其預測與當今科技發展的吻合程度。
Thumbnail
2025/04/20
Y Combinator:為什麼垂直 AI 代理的規模可能比 SaaS 大10倍 思維邏輯自我訓練方案 中國沒有不痛,但選擇了不跪 《黑鏡》的陰影:當悲觀論述獨舞,我們該如何擁抱科技的未來?
Thumbnail
2025/04/20
Y Combinator:為什麼垂直 AI 代理的規模可能比 SaaS 大10倍 思維邏輯自我訓練方案 中國沒有不痛,但選擇了不跪 《黑鏡》的陰影:當悲觀論述獨舞,我們該如何擁抱科技的未來?
Thumbnail
2025/03/20
全球約有 12 分之 1 的男性是色盲,其中紅綠色盲最為常見,顏色在設計中不應是唯一的意義傳達方式。以葉子為例,假設我們設計一個應用程式來區分葉子的健康狀態,若僅用綠色表示健康、紅色表示枯萎,色盲使用者可能無法分辨。 色盲的普遍性與設計挑戰約有12分之一的男性(即約8%的人口)患有色盲,其中紅
Thumbnail
2025/03/20
全球約有 12 分之 1 的男性是色盲,其中紅綠色盲最為常見,顏色在設計中不應是唯一的意義傳達方式。以葉子為例,假設我們設計一個應用程式來區分葉子的健康狀態,若僅用綠色表示健康、紅色表示枯萎,色盲使用者可能無法分辨。 色盲的普遍性與設計挑戰約有12分之一的男性(即約8%的人口)患有色盲,其中紅
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
摘要 (Abstract) DeepSeek 技術正在改變人工智慧(AI)的格局,通過提升軟體效率和採用開放存取模式,在不依賴龐大硬體資源的情況下推動 AI 發展。在中國市場,AI 模型變得更加精簡與高效,削減高端儲存材料(如 HBM)的需求;此外,與美國針對中國的技術制裁相關,中國 AI 企業正
Thumbnail
摘要 (Abstract) DeepSeek 技術正在改變人工智慧(AI)的格局,通過提升軟體效率和採用開放存取模式,在不依賴龐大硬體資源的情況下推動 AI 發展。在中國市場,AI 模型變得更加精簡與高效,削減高端儲存材料(如 HBM)的需求;此外,與美國針對中國的技術制裁相關,中國 AI 企業正
Thumbnail
Deepseek 的出現重挫 Nvidia 股價,引發市場震撼。本文深入淺出地介紹 Deepseek 的三大策略:學習策略 、回饋機制和資源配置,說明其如何突破傳統「高效能=高資源」的限制,為 AI 產業帶來新的可能性。
Thumbnail
Deepseek 的出現重挫 Nvidia 股價,引發市場震撼。本文深入淺出地介紹 Deepseek 的三大策略:學習策略 、回饋機制和資源配置,說明其如何突破傳統「高效能=高資源」的限制,為 AI 產業帶來新的可能性。
Thumbnail
DeepSeek以低成本和高效能引發關注,促使OpenAI宣布即將推出ChatGPT-5,Google升級了Gemini AI,馬斯克的xAI則發布了Grok3。Grok3採用「思維鏈」推理機制,具備多版本設計,並整合了 DeepSearch 和Big Brain模式,提升了推理能力和信息檢索效率。
Thumbnail
DeepSeek以低成本和高效能引發關注,促使OpenAI宣布即將推出ChatGPT-5,Google升級了Gemini AI,馬斯克的xAI則發布了Grok3。Grok3採用「思維鏈」推理機制,具備多版本設計,並整合了 DeepSearch 和Big Brain模式,提升了推理能力和信息檢索效率。
Thumbnail
@最近中國的人工智慧軟體deepseek橫空出世,標榜著便宜,輕量,開源,而且功能和美國上千億開發的人工智慧openAI,google 的AI程式功能差不多,使得這款中國的人工智慧deepseek,讓美國股市投資人對美國的人工智慧股票失去信心,大量拋售人工智慧股票,造成了美國的股市大震盪,人工
Thumbnail
@最近中國的人工智慧軟體deepseek橫空出世,標榜著便宜,輕量,開源,而且功能和美國上千億開發的人工智慧openAI,google 的AI程式功能差不多,使得這款中國的人工智慧deepseek,讓美國股市投資人對美國的人工智慧股票失去信心,大量拋售人工智慧股票,造成了美國的股市大震盪,人工
Thumbnail
近期,DeepSeek V3的出現引爆了全球科技業和矽谷的恐慌,直接嚇壞 Meta! 除了各項數據的表現不俗,最關鍵的,是這個來自中國血統,可與 ChatGPT 抗衡的 DeepSeek, 其最新AI模組 V3 只花了557萬美元訓練,甚至比美國科技業某些高管的年薪還低...
Thumbnail
近期,DeepSeek V3的出現引爆了全球科技業和矽谷的恐慌,直接嚇壞 Meta! 除了各項數據的表現不俗,最關鍵的,是這個來自中國血統,可與 ChatGPT 抗衡的 DeepSeek, 其最新AI模組 V3 只花了557萬美元訓練,甚至比美國科技業某些高管的年薪還低...
Thumbnail
中國AI新創公司DeepSeek推出全新AI訓練模組,成本低於Open AI的ChatGPT,引發美國科技股震盪。本文分析DeepSeek的背景、技術來源、成本效益以及對AI產業和美國科技巨頭的影響,並探討其對AI普及化的促進作用和對晶片產業的衝擊。
Thumbnail
中國AI新創公司DeepSeek推出全新AI訓練模組,成本低於Open AI的ChatGPT,引發美國科技股震盪。本文分析DeepSeek的背景、技術來源、成本效益以及對AI產業和美國科技巨頭的影響,並探討其對AI普及化的促進作用和對晶片產業的衝擊。
Thumbnail
摘要 摩根士丹利的最新報告針對深度學習模型DeepSeek的影響進行了深入分析,並重申了對人工智慧(AI)晶片市場的樂觀看法。報告中提到,儘管美國雲服務提供商(CSPs)維持了相似的AI資本支出,但對中國AI市場和聯發科的看法更加積極。此外,報告強調了DeepSeek在降低成本方面的潛力,並指出N
Thumbnail
摘要 摩根士丹利的最新報告針對深度學習模型DeepSeek的影響進行了深入分析,並重申了對人工智慧(AI)晶片市場的樂觀看法。報告中提到,儘管美國雲服務提供商(CSPs)維持了相似的AI資本支出,但對中國AI市場和聯發科的看法更加積極。此外,報告強調了DeepSeek在降低成本方面的潛力,並指出N
Thumbnail
最近,中國AI新創公司DeepSeek推出了一款低成本的開源大型語言模型,聲稱性能可媲美美國的ChatGPT。恰恰引發了美國半導體股價,尤其有輝達(NVIDIA)與台積電ADR雙雙大跌,引發市場恐慌,美股要GG了嗎? 今天,就讓我們透過這個案例,重新探討 指數投資與分散風險的核心概念!
Thumbnail
最近,中國AI新創公司DeepSeek推出了一款低成本的開源大型語言模型,聲稱性能可媲美美國的ChatGPT。恰恰引發了美國半導體股價,尤其有輝達(NVIDIA)與台積電ADR雙雙大跌,引發市場恐慌,美股要GG了嗎? 今天,就讓我們透過這個案例,重新探討 指數投資與分散風險的核心概念!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News