• 自我演進 (Self-evolution):DeepSeek-R1-Zero 在無任何監督數據的情況下,只透過大規模強化學習,成功發展出強大的推理能力。
• 冷啟動數據 (Cold-Start Data):DeepSeek-R1 使用少量高品質的冷啟動數據進行初步微調,改善可讀性並加速後續的 RL 收斂。
• 多階段訓練:先用小量高品質數據微調,再在大規模 RL 期間不斷生成與篩選樣本,進而進一步微調與全域訓練,循環往返以達最佳效能。
2. 獎勵機制
• 規則式獎勵:在數學、程式碼等可客觀驗證的領域,採用規則式的正確率獎勵;亦使用格式獎勵去強制推理過程分隔標示,避免「獎勵駭客」的複雜度。
3. 知識蒸餾
• 蒸餾到小模型:DeepSeek-R1 可將推理能力轉移到更小參數量(1.5B、7B、14B、32B、70B)的模型上,維持不錯的推理精度,同時大幅降低訓練與部署成本。
4. 效能表現
• AIME 2024:Pass@1 可達 79.8% 的成績,接近或超越部分商業大模型。
• MMLU:達到 90.8% 的高分,在知識與推理的多任務基準上表現優異。
• 可讀性改善:DeepSeek-R1-Zero 版本雖有混語等問題,但正式版 DeepSeek-R1 透過加入冷啟動數據,兼具高可讀性與優異推理表現。
5. 開源情況
• 完整釋出:DeepSeek-R1-Zero、DeepSeek-R1 以及 6 個經過蒸餾的稠密模型(1.5B、7B、8B、14B、32B、70B)都已開源,促進研究社群進一步探索。
1. 模型架構與預訓練
• Transformer 架構:分為預訓練與後訓練兩大階段。
• 預訓練規模:在 15.6T tokens 進行 405B 參數模型的預訓練,上下文窗口最初為 8K tokens,之後增強到可處理 128K tokens 的超長上下文。
2. 資料過濾
• 品質控管:使用 Kullback-Leibler 散度篩除異常 token,並透過 fasttext、Roberta 等模型分層濾除低品質數據。
3. 後訓練策略
• 獎勵模型 + 監督式微調 (SFT) + 直接偏好最佳化 (DPO):用來增強模型在對話導航、工具使用與推理上的能力。
• 拒絕抽樣 (Rejection Sampling):挑選高品質樣本以持續優化模型。
4. 多語、長文本支援
• 多功能性:Llama 3 原生支援多語言、程式碼生成、邏輯推理與工具操作,可處理長度最高達 128K tokens 的上下文。
• 工具使用:可整合搜尋、程式碼執行等外部工具。
5. 安全機制
• Llama Guard & Prompt Guard:用以過濾危險內容及偵測提示攻擊,在追求效能的同時兼顧安全性與低誤拒率。
6. 效能表現
• MMLU 與 MMLU-Pro:在各種知識評估中展現高水準,且具備良好的長文本理解與工具整合能力。
• 記憶與推理:能在長序列任務中維持上下文一致性,但偶爾出現逐字記憶 (verbatim memory) 現象。
1. 訓練方法
• DeepSeek-R1:以強化學習為核心,少量冷啟動數據 + 規則式獎勵,利用自我演進來提升推理精度。
• Llama 3:採用大規模預訓練 + 後訓練(獎勵模型、SFT、DPO),重點在多語、工具使用與安全性。
2. 數據需求
• DeepSeek-R1:強調「少量高品質」冷啟動數據輔以大規模 RL;若需更通用能力,則再加入多領域微調資料。
• Llama 3:依賴超大規模多語文本語料,並經過嚴謹的過濾機制。
3. 目標與應用
• DeepSeek-R1:集中火力在「推理能力」,在數理與程式領域表現突出,也能利用蒸餾技術讓小模型擁有近似大型模型的推理水準。
• Llama 3:目標是廣泛的多任務、長文本理解、工具整合與安全性。
4. 安全性機制
• DeepSeek-R1:使用規則式獎勵,避免神經獎勵模型的駭客風險;在最後階段也會考慮偏好與安全性。
• Llama 3:透過 Llama Guard、Prompt Guard 等管道,維持高安全性與低誤拒率。
5. 開源度
• DeepSeek-R1:完整開源主模型與蒸餾模型,方便研究與應用。
• Llama 3:Meta 官方提供部分權重與 API,但實際開放細節須依官方聲明與政策而定。
• DeepSeek-R1 主打「強化學習驅動的推理能力」、「少量冷啟動 + 規則式獎勵」,在數理推理測試中展現媲美商業閉源大模型的準確率;另提供小模型蒸餾方案,減少資源與成本。
• Llama 3 以超大規模預訓練結合後訓練策略,在多語言、多工具、長文本安全性與整合性方面表現突出,廣泛適用於通用場景。
• 未來可根據不同需求選擇合適的路線:若追求純推理/數理編程場景,DeepSeek-R1 是不錯的選擇;若側重多語言長文本與工具整合,Llama 3 仍具備高度通用與安全風險控管的優勢。