DeepSeek AI 於2025年12月1日發布了最新的模型:DeepSeek-V3.2。它試圖證明,透過架構革新、高效的訓練方法與策略性的數據工程,開源模型不僅能追趕,甚至有機會在特定領域與頂尖閉源模型一較高下。
DeepSeek-V3.2: Efficient Reasoning & Agentic AI

為何開源模型總是追不上?DeepSeek 看到的三大痛點
在提出解決方案前,必須先精準地定義問題。DeepSeek 團隊明確指出了阻礙開源模型發展的三大根本性缺陷,這些觀察可謂一針見血。架構效率瓶頸:注意力機制的計算詛咒
大型語言模型的核心是「注意力機制」(Attention Mechanism),它讓模型在處理文字時,能判斷哪些詞彙最為關鍵。然而,傳統的「全局注意力」(Vanilla Attention) 機制存在一個致命缺陷:其計算複雜度會隨著輸入序列長度的平方增加。簡單來說,當你處理的文章長度增加一倍,計算成本會變成四倍。這使得模型在處理長篇報告、程式碼庫或進行多輪複雜對話時,變得極其昂貴且緩慢,成為了擴展與部署的巨大障礙。
資源投入不足:後訓練階段的巨大鴻溝
模型的「預訓練」(Pre-training) 就像是為其灌輸了通識教育,讓它具備廣泛的知識。但要讓模型從「博學」走向「專精」,能解決數學、寫程式碼等複雜任務,則需要投入大量的「後訓練」(Post-training)。這個階段需要高品質的數據和龐大的算力進行強化學習 (RL) 與微調。過去,開源社群普遍在此階段的算力投資不足,導致模型雖然知識淵博,卻缺乏解決高難度問題的「技巧」與「紀律」。
AI 代理人能力落後:從「會說」到「會做」的最後一哩路
未來的 AI 不僅僅是個聊天機器人,更要能化身為「AI 代理人」(AI Agent),能理解複雜指令、使用外部工具 (如搜尋引擎、計算機、API) 來完成多步驟的複雜任務。這要求模型具備強大的泛化與指令遵循能力。然而,相較於頂級閉源模型,開源模型在此領域表現明顯滯後,限制了它們在真實世界應用場景中的可靠性與實用性。
DeepSeek-V3.2 的三叉戟:架構、訓練與數據的全面革新
針對上述三大痛點,DeepSeek-V3.2 提出了三大核心技術突破,如同三叉戟般,精準地刺向問題的核心。
突破一:用「稀疏」取代「暴力」的 DSA 架構
為了解決全局注意力的效率詛咒,DeepSeek-V3.2 引入了創新的 DeepSeek Sparse Attention (DSA) 架構。其核心思想非常直觀:當人類專家閱讀一份文件尋找答案時,並不會逐字逐句地通讀全文,而是會快速掃描,定位到最相關的幾個段落進行精讀。
DSA 的運作方式與此類似,它包含兩個關鍵組件:
- Lightning Indexer:這是一個輕量級模組,它的任務是快速掃描整個序列,為每個詞彙打上「相關性分數」,判斷它對於當前正在處理的詞彙有多重要。
- Fine-Grained Token Selection:根據索引器打出的分數,此機制只會挑選出分數最高的少數幾個關鍵詞彙,讓主要的注意力計算只發生在這個高度相關的小集合內。
透過這種方式,DSA 成功將注意力計算的複雜度大幅降低。無論是在處理長文本的預處理 (Prefilling) 還是生成 (Decoding) 階段,DSA 都帶來了顯著的端到端速度提升與成本下降,為後續大規模、高強度的後訓練奠定了堅實的經濟基礎。
突破二:穩定且可規模化的強化學習 (RL) 框架
有了高效的底層架構,DeepSeek 得以將超過預訓練成本 10% 的龐大算力,史無前例地投入到後訓練階段。為了確保如此大規模的強化學習過程穩定可控,他們建立了一套精密的框架。
首先,團隊採用了「專家蒸餾」(Specialist Distillation) 策略。他們先針對數學、程式、邏輯推理、代理人任務等六個特定領域,訓練出各自的「專家模型」。待這些專家達到頂尖水準後,再利用它們生成大量高品質、特定領域的數據。
接著,這些數據被用於一個統一的「混合式強化學習」階段。透過 GRPO (Group Relative Policy Optimization) 演算法,將推理、代理人能力與人類價值對齊的訓練,合併在同一個階段進行。這種做法有效地避免了在多階段訓練中常見的「災難性遺忘」問題,讓模型能同時在多個維度上均衡發展。另外論文內亦闡述了幾項更細緻的技術,以確保大規模 RL 過程中的穩定性。
突破三:大規模「AI 代理人」任務合成,打造實戰能力
為了讓模型真正學會「動手做事」,DeepSeek 開發了一套創新的兩階段數據合成流程,為模型打造了強大的代理人能力。
第一階段是「冷啟動」(Cold-Start),目標是讓模型初步理解如何在推理過程中嵌入工具的使用。團隊透過巧妙的提示工程,將現有的推理數據和非推理的代理人數據結合,教會模型如何生成包含工具執行的思考軌跡。
第二階段則是「大規模代理人任務合成」。為了讓模型具備應對千變萬化真實場景的泛化能力,團隊建立了一個龐大且多樣化的強化學習任務庫,合成了超過 1,800 個獨特的環境和 85,000 個複雜的提示。這些數據涵蓋了四大類代理人任務:
- 搜尋代理人:橫跨多領域和語言的高品質問答對。
- 程式碼代理人:從 GitHub 挖掘的數萬個可重現的軟體問題解決環境。
- 程式碼解釋器代理人:涵蓋數學、邏輯和數據科學的複雜問題,需要模型操作 Jupyter Notebook 求解。
- 通用代理人:自動合成的獨特、難以解決但易於驗證的複雜規劃任務。
透過這套合成數據,DeepSeek-V3.2 的工具使用和指令遵循能力得到了極大的提升。
實力對決:DeepSeek-V3.2 與 V3.2-Speciale 的驚人表現
在推理任務上,DeepSeek-V3.2 的表現與 GPT-5-high 相當。在 AI 代理人能力方面,它顯著超越了其他開源模型,有效地縮小了與閉源模型的差距。例如,在程式碼代理人測試 (Terminal Bench 2.0) 和工具使用測試 (Tool-Decathlon) 中,其得分都大幅領先其他開源對手,並逼近像 Claude-4.5-Sonnet 這樣的頂尖模型。
為了探索純粹推理能力的極限,團隊同時推出了一個實驗性模型 DeepSeek-V3.2-Speciale。這個模型專為推理任務進行了極致優化,在多個頂級數學和程式設計競賽中,達到了金牌水準的表現,包括 2025 年的國際數學奧林匹亞 (IMO) 和國際資訊學奧林匹亞 (IOI)。
然而,這種極致的準確性也帶來了效率上的權衡。Deepseek 坦誠地指出,儘管 Speciale 在某些測試上的準確率超越了 Gemini-3.0-Pro,但它需要生成更長的思考鏈 (更多的 Token) 才能得出答案。這凸顯了「思考效率」成為了未來需要優化的關鍵方向。
TN科技筆記的觀點
- DSA 架構並非全新概念,但 DeepSeek 團隊將其工程化、規模化,並成功地應用在一個已經非常龐大的模型上。對於廣大希望部署開源模型的開發者和企業而言,一個性能強大且推理成本更低的基礎模型,其價值不言而喻。
- Deepseek 團隊也承認,模型與頂尖閉源模型(如 Gemini-3.0-Pro)之間仍然存在差距,團隊直言,由於總體訓練的浮點運算次數 (FLOPs) 較少,DeepSeek-V3.2 在「世界知識的廣度」上仍然落後,他們計劃在未來透過擴大預訓練規模來解決。此外,在處理頂級複雜任務時,其表現仍然遜於前沿模型,他們也計劃持續去迭代基礎模型與後訓練的方式。這也告訴我們,追趕之路並非一蹴可幾,越是接近頂點,每一步的提升都將更加困難,這場追趕賽也將是一場資源消耗巨大的長期抗戰。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)














