DeepSeek-R1 vs Llama 3：大型語言模型的深度比較與應用場景分析

史官Fong的小本本

發佈於市場小本本

更新於 2025/01/28發佈於 2025/01/28閱讀時間約 6 分鐘

DeepSeek-R1

核心訓練方法：強化學習 (RL) 為主

• 自我演進 (Self-evolution)：DeepSeek-R1-Zero 在無任何監督數據的情況下，只透過大規模強化學習，成功發展出強大的推理能力。

• 冷啟動數據 (Cold-Start Data)：DeepSeek-R1 使用少量高品質的冷啟動數據進行初步微調，改善可讀性並加速後續的 RL 收斂。

• 多階段訓練：先用小量高品質數據微調，再在大規模 RL 期間不斷生成與篩選樣本，進而進一步微調與全域訓練，循環往返以達最佳效能。

2. 獎勵機制

• 規則式獎勵：在數學、程式碼等可客觀驗證的領域，採用規則式的正確率獎勵；亦使用格式獎勵去強制推理過程分隔標示，避免「獎勵駭客」的複雜度。

3. 知識蒸餾

• 蒸餾到小模型：DeepSeek-R1 可將推理能力轉移到更小參數量（1.5B、7B、14B、32B、70B）的模型上，維持不錯的推理精度，同時大幅降低訓練與部署成本。

4. 效能表現

• AIME 2024：Pass@1 可達 79.8% 的成績，接近或超越部分商業大模型。

• MMLU：達到 90.8% 的高分，在知識與推理的多任務基準上表現優異。

• 可讀性改善：DeepSeek-R1-Zero 版本雖有混語等問題，但正式版 DeepSeek-R1 透過加入冷啟動數據，兼具高可讀性與優異推理表現。

5. 開源情況

• 完整釋出：DeepSeek-R1-Zero、DeepSeek-R1 以及 6 個經過蒸餾的稠密模型（1.5B、7B、8B、14B、32B、70B）都已開源，促進研究社群進一步探索。

Llama 3

1. 模型架構與預訓練

• Transformer 架構：分為預訓練與後訓練兩大階段。

• 預訓練規模：在 15.6T tokens 進行 405B 參數模型的預訓練，上下文窗口最初為 8K tokens，之後增強到可處理 128K tokens 的超長上下文。

2. 資料過濾

• 品質控管：使用 Kullback-Leibler 散度篩除異常 token，並透過 fasttext、Roberta 等模型分層濾除低品質數據。

3. 後訓練策略

• 獎勵模型 + 監督式微調 (SFT) + 直接偏好最佳化 (DPO)：用來增強模型在對話導航、工具使用與推理上的能力。

• 拒絕抽樣 (Rejection Sampling)：挑選高品質樣本以持續優化模型。

4. 多語、長文本支援

• 多功能性：Llama 3 原生支援多語言、程式碼生成、邏輯推理與工具操作，可處理長度最高達 128K tokens 的上下文。

• 工具使用：可整合搜尋、程式碼執行等外部工具。

5. 安全機制

• Llama Guard & Prompt Guard：用以過濾危險內容及偵測提示攻擊，在追求效能的同時兼顧安全性與低誤拒率。

6. 效能表現

• MMLU 與 MMLU-Pro：在各種知識評估中展現高水準，且具備良好的長文本理解與工具整合能力。

• 記憶與推理：能在長序列任務中維持上下文一致性，但偶爾出現逐字記憶 (verbatim memory) 現象。

DeepSeek-R1 與 Llama 3 的對比小結

1. 訓練方法

• DeepSeek-R1：以強化學習為核心，少量冷啟動數據 + 規則式獎勵，利用自我演進來提升推理精度。

• Llama 3：採用大規模預訓練 + 後訓練（獎勵模型、SFT、DPO），重點在多語、工具使用與安全性。

2. 數據需求

• DeepSeek-R1：強調「少量高品質」冷啟動數據輔以大規模 RL；若需更通用能力，則再加入多領域微調資料。

• Llama 3：依賴超大規模多語文本語料，並經過嚴謹的過濾機制。

3. 目標與應用

• DeepSeek-R1：集中火力在「推理能力」，在數理與程式領域表現突出，也能利用蒸餾技術讓小模型擁有近似大型模型的推理水準。

• Llama 3：目標是廣泛的多任務、長文本理解、工具整合與安全性。

4. 安全性機制

• DeepSeek-R1：使用規則式獎勵，避免神經獎勵模型的駭客風險；在最後階段也會考慮偏好與安全性。

• Llama 3：透過 Llama Guard、Prompt Guard 等管道，維持高安全性與低誤拒率。

5. 開源度

• DeepSeek-R1：完整開源主模型與蒸餾模型，方便研究與應用。

• Llama 3：Meta 官方提供部分權重與 API，但實際開放細節須依官方聲明與政策而定。

總結

• DeepSeek-R1 主打「強化學習驅動的推理能力」、「少量冷啟動 + 規則式獎勵」，在數理推理測試中展現媲美商業閉源大模型的準確率；另提供小模型蒸餾方案，減少資源與成本。

• Llama 3 以超大規模預訓練結合後訓練策略，在多語言、多工具、長文本安全性與整合性方面表現突出，廣泛適用於通用場景。

• 未來可根據不同需求選擇合適的路線：若追求純推理/數理編程場景，DeepSeek-R1 是不錯的選擇；若側重多語言長文本與工具整合，Llama 3 仍具備高度通用與安全風險控管的優勢。

留言

留言分享你的想法！

史官Fong的小本本

319會員

134內容數

記錄市場韭菜在市場打滾看到的公開消息

史官Fong的小本本的其他內容

2025/02/19

低成本的AI工具研究方法

有花錢就要用好用滿啊

2025/02/19

低成本的AI工具研究方法

有花錢就要用好用滿啊

2025/02/18

XAI：Grok-3 全方位解析與前瞻評估報告

XAI推出的新一代人工智慧系統Grok-3，憑藉超大規模分散式運算架構與先進推理機制，在技術層面與市場應用上展現深厚潛力。預期未來3～5年內，於半導體、生技醫療與高端製造等領域滲透度將持續攀升，帶動AI即服務模式的商業規模爆發。

2025/02/18

XAI：Grok-3 全方位解析與前瞻評估報告

2025/02/16

台積電與英特爾潛在合作模式戰略分析報告

在多重政治、技術及市場因素交織下，台積電與英特爾潛在合作案既存在重大政策誘因，也面臨技術整合與財務風險。未來數季各項關鍵指標的變化，將成為決定此合作模式能否達成雙贏的關鍵。

2025/02/16

台積電與英特爾潛在合作模式戰略分析報告

看更多

你可能也想看

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

常常被朋友問「哪裡買的？」嗎？透過蝦皮分潤計畫，把日常購物的分享多加一個步驟，就能轉換成現金回饋。門檻低、申請簡單，特別適合學生與上班族，讓零碎時間也能創造小確幸。

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

#PromptPattern#LLM#ChatGPT

2024/03/09

Everything ✨

AI 模型的進化｜從大型語言模型LLM 到多模態模型LMM

大型語言模型(LLM)是基於深度學習的自然語言處理模型，而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言，LMM 能夠處理跨模態的內容，並整合多種資料的能力，有望成為未來趨勢。

#ChatGPT#AI#人工智慧

2024/02/24

Everything ✨

AI 模型的進化｜從大型語言模型LLM 到多模態模型LMM

#ChatGPT#AI#人工智慧

2024/02/24

王啟樺的沙龍

【大語言模型LLMs：為何「大」字至關重要？】

大語言模型（LLMs）對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。這類模型，如GPT-4，透過其龐大的數據集和複雜的參數設置，提供了前所未有的語言理解和生成能力。那麼，究竟是什麼讓這些模型「大」得如此不同呢？

#大語言模型#GPT4#ChatGPT

2024/01/19

王啟樺的沙龍

【大語言模型LLMs：為何「大」字至關重要？】

#大語言模型#GPT4#ChatGPT

2024/01/19

Karen的沙龍

將RAG與Semantic Search融入LLM：提升準確性與效率

前言前幾篇分享了 IBM Watsonx.ai 平台，以及在平台上使用 LLM 完成客戶體驗分析、與LLM串連處理較複雜的問題。在這一篇中，我們想來嘗試使用檢索增強生成（RAG）的技術，RAG 通過整合外部數據來增強基礎模型的回答能力，這不僅能解決模型訓練數據的局限性問題，還可以提供更精準和相關

#LLM#RAG#huggingface

2023/12/18

Karen的沙龍

將RAG與Semantic Search融入LLM：提升準確性與效率

#LLM#RAG#huggingface

2023/12/18

Karen的沙龍

LLM 串連：利用不同模型的優勢完成更複雜和多樣的任務

前言在先前的文章中，我們探討了 IBM Watsonx 在客戶滿意度分析中的應用。今天，我們將利用 Google 的兩款大型語言模型（LLM）— flan-ul2 和 flan-t5-xxl，展示它們如何串聯起來生成關於特定主題的隨機問題和回答。在這篇文章中，將使用 SimpleSequen

#模型#LLM#IBM

2023/12/18

Karen的沙龍

LLM 串連：利用不同模型的優勢完成更複雜和多樣的任務

2023/12/18

2023/11/11

2023/11/11

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

#科技力#Mistral#GPT-4

2023/10/29

無限智慧學院的沙龍

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

#科技力#Mistral#GPT-4

2023/10/29

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News