DeepSeek 能以更低的成本 訓練 AI 模型,主要有 以下幾個關鍵優勢,即使其他 AI 公司也在使用 MoE(Mixture-of-Experts)架構,DeepSeek 仍能顯著降低開發成本: --- 1. MoE 架構的極致優化 DeepSeek 並非只是 採用 MoE,而是 將 MoE 的計算效率進一步極限優化,這與 Google 的 Switch Transformer、Mistral Mixtral 有所不同: Sparse Activation(稀疏激活): DeepSeek 在 6,710 億參數 的模型中,每個 token 只用 370 億參數 進行運算(Google Switch Transformer 可能啟用更多)。 更少的計算量 = 更低的 GPU 運行成本,相比 OpenAI 全參數 GPT-4,DeepSeek 可以大幅降低推理成本。 專家權重分配更智能: DeepSeek 的 MoE 採用更精細的路由機制,將不同的 token 智慧分配給最合適的專家網絡,讓 GPU 運算更有效率,減少計算浪費。 極致的訓練數據壓縮: 資料清洗 & Token 選擇:DeepSeek 可能只選擇高價值的語料,減少低質量的 token,從而用更少的 token 訓練出更有效的 AI。 資料增強技術:透過數據擴增,DeepSeek 可能用更少的資料達到更好的效果。 --- 2. 低成本 GPU 使用策略 DeepSeek 的 GPU 運行成本比 OpenAI、Google 低,可能來自以下策略: (1) 使用 H800 而非 H100 DeepSeek 使用的 NVIDIA H800(中國版 H100),性能比 H100 稍低,但價格便宜。 H800 受中國出口管制影響,雖然比 H100 慢,但 DeepSeek 可能獲得了 更優惠的價格 或 政府補助,進一步降低硬體成本。 (2) 高效的 GPU 佈局 & 並行計算 DeepSeek 可能採用了類似 Google TPU Mesh 的架構,讓 2,000 張 H800 GPU 更有效地協作。 這意味著即使 GPU 數量較少,DeepSeek 仍能透過更高效的計算架構達到類似 GPT-4 的訓練效果。 (3) 可能利用中國自研 AI 晶片 由於美國對中國限制高階 GPU 出口,DeepSeek 可能部分使用華為 Ascend 910B、寒武紀 MLU、比特大陸 AI 晶片。 這些國產 AI 晶片雖然效能不如 H100,但成本更低,可以進一步節省支出。 --- 3. 省下昂貴的雲端訓練成本 大部分 AI 公司(如 OpenAI、Anthropic、Mistral)都依賴雲端訓練,需要付給 AWS、Azure 高昂的 GPU 計算費用。 DeepSeek 自建數據中心,而非租用 AWS: OpenAI 訓練 GPT-4 時,花費了數億美元在 Azure 的 GPU 雲端運算。 DeepSeek 可能直接自建數據中心,這樣可以避免長期的雲端租用成本,雖然前期投入較大,但長期來看更具成本優勢。 --- 4. 可能獲得政府支持 & 補助 DeepSeek 作為中國 AI 領域的代表,極有可能獲得中國政府的大力支持,這可能來自: 政府提供 GPU 資源補助(降低 NVIDIA H800 購買成本)。 國家級超算資源支援(可能利用中國的超算中心來降低運算成本)。 本土 AI 生態鏈優惠(中國 AI 產業鏈成熟,減少依賴昂貴的進口技術)。 這使得 DeepSeek 能夠 比 OpenAI、Google、Anthropic 更低成本地訓練 AI 模型。 --- 5. 軟體層面高度優化 DeepSeek 可能透過以下技術進一步降低成本: DeepSpeed / FlashAttention:加快訓練速度,減少 GPU 訓練時間。 進階壓縮技術(如 LoRA, QLoRA):讓模型在 不降低效果的情況下大幅減少計算資源。 更高效的分佈式訓練:讓 2,000 張 H800 GPU 充分發揮計算能力,避免計算閒置。 --- 結論:DeepSeek 的「低成本」= 全面技術優化 DeepSeek 並非只是「砸錢少」就能做到這點,而是: 1. 極致優化 MoE 架構(稀疏激活 + 智慧專家選擇)。 2. 高效 GPU 運算策略(便宜的 H800 + 國產 AI 晶片)。 3. 避免昂貴的雲端租用成本(自建數據中心)。 4. 可能獲得政府支持(資金補助 + 超算資源)。 5. 使用最先進的 AI 訓練優化技術(DeepSpeed, FlashAttention, QLoRA)。 這些因素疊加起來,讓 DeepSeek 在僅使用 2,000 張 H800 GPU 的情況下,達到媲美 GPT-4 的 AI 競爭力,大幅降低成本。 這也解釋了為何 OpenAI、Google、Meta、Anthropic 在投入數億美元後,仍然面臨高昂的 AI 訓練與推理成本,而 DeepSeek 則能以更小的投資獲得類似的效果。