中國大陸 AI 又想彎道超車了！DeepSeek V3：低成本、高效能的開源大型語言模型

開源陣營的 LLM DeepSeek V3 使用 Nvidia H800 GPU 進行訓練，用誇張低成本達到與 Claude 3.5 Sonnet 和 GPT 4o 相當的效果，預訓練總成本僅為 532.8 萬美元，每百萬 Token 的價格可以壓到不到 $0.5 美金，是用 1/10 的價格達到 OpenAI 和 Anthropic 同級的水準。

DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施，以及 FP8 混合精度訓練等技術，在保證模型效能的同時，顯著降低了開發資源的消耗。這使得 DeepSeek-V3 成為一個極具成本效益的 LLM 解決方案，為更多團隊和研究者開闢了探索和應用大型語言模型的可能性。

以追擊速度來看，晶片限制法看來目前效果有限，中國團隊用不同的思路來捲大模型，未來要看看便宜是不是王道了？

我讓 NotebookLM 幫我讀了 paper，解釋 DeepSeek 如何做到用極低的成本做到和 OpenAI 與 Anthropic 同當的效能：

DeepSeek-V3 能以低成本達到與 OpenAI 和 Anthropic 相當的效果，主要歸功於以下幾個關鍵因素：

模型架構的創新: DeepSeek-V3 採用了高效的混合專家 (MoE) 架構，並結合了多頭潛在注意力 (MLA) 和 DeepSeekMoE 技術。這些技術使得模型在保持強大性能的同時，實現了高效的訓練和推理。 MLA 有助於在推理過程中減少鍵值 (KV) 快取。 DeepSeekMoE 則透過使用更細粒度的專家和隔離一些專家作為共享專家，實現了經濟高效的訓練。
輔助損失無負載平衡策略： DeepSeek-V3 首創了這種策略，以最大程度地減少鼓勵負載平衡對模型性能造成的負面影響。該策略透過動態調整每個專家的偏差項，在訓練過程中保持負載平衡，從而獲得比僅透過輔助損失鼓勵負載平衡的模型更好的性能。
多標記預測訓練目標： DeepSeek-V3 採用了多標記預測 (MTP) 訓練目標，透過擴展每個位置的預測範圍到多個未來標記，提高了整體性能。這有助於提高數據效率，並使模型能夠預先規劃其表示，以便更好地預測未來標記。
高效的訓練框架和基礎設施： DeepSeek-V3 的訓練由 HAI-LLM 框架支持，這是一個由 DeepSeek 工程師從頭開始構建的高效輕量級訓練框架。該框架採用了管道並行、專家並行和數據並行等技術，並對訓練流程進行了精心優化，以最大程度地提高訓練效率。這些優化包括： DualPipe 算法，用於高效的管道並行，減少管道氣泡，並透過計算-通信重疊隱藏大部分訓練期間的通信。高效的跨節點全對全通信內核，充分利用 InfiniBand 和 NVLink 帶寬。精心優化的內存佔用，無需使用成本高昂的張量並行即可訓練 DeepSeek-V3。
FP8 混合精度訓練： DeepSeek-V3 利用 FP8 數據格式進行訓練，透過支持 FP8 計算和存儲，既加快了訓練速度，又減少了 GPU 內存使用量。為了確保數值穩定性，模型在特定組件（如嵌入模塊、輸出頭、MoE 門控模塊、歸一化運算符和注意力運算符）中保留了原始精度（例如 BF16 或 FP32）。
知識蒸餾：在訓練的後期階段，DeepSeek-V3 從 DeepSeek-R1 系列模型中提取了推理能力，特別是在數學和編程領域。這種技術顯著提高了模型在需要複雜推理的任務上的性能。

總之，DeepSeek-V3 透過創新的模型架構、高效的訓練策略和基礎設施，以及知識蒸餾技術，以極低的成本實現了與 OpenAI 和 Anthropic 模型相媲美的性能。 DeepSeek 團隊致力於開源模型的長期發展，並計劃在未來繼續研究和改進模型架構、訓練數據和深度思維能力，以進一步提高模型的智能和解決問題的能力。