開源陣營的 LLM DeepSeek V3 使用 Nvidia H800 GPU 進行訓練,用誇張低成本達到與 Claude 3.5 Sonnet 和 GPT 4o 相當的效果, 預訓練總成本僅為 532.8 萬美元,每百萬 Token 的價格可以壓到不到 $0.5 美金,是用 1/10 的價格達到 OpenAI 和 Anthropic 同級的水準。
DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施,以及 FP8 混合精度訓練等技術,在保證模型效能的同時,顯著降低了開發資源的消耗。 這使得 DeepSeek-V3 成為一個極具成本效益的 LLM 解決方案,為更多團隊和研究者開闢了探索和應用大型語言模型的可能性。
以追擊速度來看,晶片限制法看來目前效果有限,中國團隊用不同的思路來捲大模型 ,未來要看看便宜是不是王道了?
我讓 NotebookLM 幫我讀了 paper,解釋 DeepSeek 如何做到用極低的成本做到和 OpenAI 與 Anthropic 同當的效能:
DeepSeek-V3 能以低成本達到與 OpenAI 和 Anthropic 相當的效果,主要歸功於以下幾個關鍵因素:
- 模型架構的創新: DeepSeek-V3 採用了高效的混合專家 (MoE) 架構,並結合了多頭潛在注意力 (MLA) 和 DeepSeekMoE 技術。 這些技術使得模型在保持強大性能的同時,實現了高效的訓練和推理。 MLA 有助於在推理過程中減少鍵值 (KV) 快取。 DeepSeekMoE 則透過使用更細粒度的專家和隔離一些專家作為共享專家,實現了經濟高效的訓練。
- 輔助損失無負載平衡策略: DeepSeek-V3 首創了這種策略,以最大程度地減少鼓勵負載平衡對模型性能造成的負面影響。 該策略透過動態調整每個專家的偏差項,在訓練過程中保持負載平衡,從而獲得比僅透過輔助損失鼓勵負載平衡的模型更好的性能。
- 多標記預測訓練目標: DeepSeek-V3 採用了多標記預測 (MTP) 訓練目標,透過擴展每個位置的預測範圍到多個未來標記,提高了整體性能。 這有助於提高數據效率,並使模型能夠預先規劃其表示,以便更好地預測未來標記。
- 高效的訓練框架和基礎設施: DeepSeek-V3 的訓練由 HAI-LLM 框架支持,這是一個由 DeepSeek 工程師從頭開始構建的高效輕量級訓練框架。 該框架採用了管道並行、專家並行和數據並行等技術,並對訓練流程進行了精心優化,以最大程度地提高訓練效率。 這些優化包括: DualPipe 算法,用於高效的管道並行,減少管道氣泡,並透過計算-通信重疊隱藏大部分訓練期間的通信。 高效的跨節點全對全通信內核,充分利用 InfiniBand 和 NVLink 帶寬。 精心優化的內存佔用,無需使用成本高昂的張量並行即可訓練 DeepSeek-V3。
- FP8 混合精度訓練: DeepSeek-V3 利用 FP8 數據格式進行訓練,透過支持 FP8 計算和存儲,既加快了訓練速度,又減少了 GPU 內存使用量。 為了確保數值穩定性,模型在特定組件(如嵌入模塊、輸出頭、MoE 門控模塊、歸一化運算符和注意力運算符)中保留了原始精度(例如 BF16 或 FP32)。
- 知識蒸餾: 在訓練的後期階段,DeepSeek-V3 從 DeepSeek-R1 系列模型中提取了推理能力,特別是在數學和編程領域。 這種技術顯著提高了模型在需要複雜推理的任務上的性能。
總之,DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施,以及知識蒸餾技術,以極低的成本實現了與 OpenAI 和 Anthropic 模型相媲美的性能。 DeepSeek 團隊致力於開源模型的長期發展,並計劃在未來繼續研究和改進模型架構、訓練數據和深度思維能力,以進一步提高模型的智能和解決問題的能力。