兩大開源模型推出：Qwen3-235B 與 Kimi K2 如何掀起開源模型風暴？

2025/07/24 更新2025/07/24 發佈閱讀 10 分鐘

兩款最新的開源大型語言模型正以其突破性的能力，掀起一場新的風暴：阿里巴巴的 Qwen3-235B 系列，以及月之暗面的 Kimi K2。它們以其「開源」姿態，將頂尖 AI 技術推向更廣闊的開發者與研究社群。這兩款模型代表了當前 AI 發展的兩大重要方向：一是追求更通用的理解與推理能力，另一則是專注於打造更強大的智能代理。TN科技筆記帶各位來深入了解這兩款模型，幫助你掌握 AI 領域的最新趨勢。

Qwen3-235B：全能型選手的再次進化

Qwen3: Think Deeper, Act Faster

由阿里巴巴雲「通義千問」團隊打造的 Qwen3 系列，其中旗艦模型 Qwen3-235B-A22B 在 2025 年 4 月 29 日首次亮相，並於 7 月 21 日推出了最新的 Qwen3-235B-A22B-Instruct-2507 更新。這是一款基於 MoE（Mixture-of-Experts，專家混合）架構的模型，總參數高達 2350 億，但在推論時僅啟動 220 億參數，實現高性能與高效率的平衡。

Qwen3-235B 的核心亮點是其獨特的「混合思考模式」（Hybrid Thinking Modes），能夠在需要深度推理的複雜任務（如數學、程式碼）和需要即時回應的對話場景之間無縫切換。此外，它在多語言支援方面也表現出色，訓練數據涵蓋 119 種語言和方言，語料庫規模達到驚人的 36 兆 token，顯示其放眼全球市場的野心。Qwen3 系列採用 Apache 2.0 許可證開源，高度自由的授權方式讓它迅速成為開發者社群的新寵。

Kimi K2：智能代理的破局者

Kimi K2: Open Agentic Intelligence

緊隨其後，由中國新創公司月之暗面（Moonshot AI）於 2025 年 7 月 12 日發布的 Kimi K2 模型，同樣採用 MoE 架構的模型，雖然總參數高達 1 兆（10000 億），但每次推論僅啟動 320 億參數，展現出極致的稀疏性設計。

Kimi K2 的設計理念明確：專注於「智能代理能力」（Agentic Capabilities）。它能自主執行多步驟任務，例如程式碼撰寫、數據分析，並能靈活運用工具。這得益於其創新的「MuonClip 優化器」以及專為智能代理任務設計的訓練範式。開發社群對其在代理與程式碼領域的強大表現讚譽有加，甚至認為它在某些方面已超越了部分閉源模型。

核心技術剖析：MoE、思維模式與智能代理的幕後推手

這兩款模型之所以能夠達到領先地位，都離不開其背後精妙的架構設計與訓練創新。

Qwen3 的「混合思考模式」與多語言支持

Qwen3-235B 的 MoE 架構包含 128 位專家，每次推論過程啟用 8 位專家。其最引人注目的創新無疑是「混合思考模式」。這個機制允許模型在「思考模式」（Thinking Mode）下進行分步推理，適用於數學、邏輯推理等需要深度思考的複雜問題，此時模型會花費更多時間以確保結果的準確性；而在「非思考模式」（Non-Thinking Mode）下，模型則能快速提供近乎即時的回答，適合對話、資訊檢索等對速度要求較高的場景。這種靈活性讓使用者能根據任務需求，在模型響應速度和深度之間進行動態平衡。值得注意的是，其指令微調版本 Qwen3-235B-A22B-Instruct-2507 則不具備明確的「思考模式」開關，而是設計為直接提供答案，顯示阿里巴巴在特定模型變體上追求特定優化的策略。

此外，Qwen3 龐大的 36 兆多語言訓練數據集是其能夠處理 119 種語言和方言的基礎。這不僅僅是一個「功能」，更是一個戰略性的佈局，將 Qwen3 定位為真正的全球性 AI 解決方案，以滿足全球多元語言市場的需求。

Kimi K2 的「MuonClip 優化器」與智能代理訓練

Kimi K2 雖然總參數達到 1 兆，但其 MoE 架構的稀疏性高達 32:1000，即每 token 僅激活 320 億參數。這使得它在極端規模下仍能保持高效推論。其最核心的技術創新是「MuonClip 優化器」，特別是其中的「qk-clip」技術。這項技術透過在每次更新後重新縮放查詢 (Wq) 和鍵 (Wk) 的權重矩陣，來穩定注意力分數，從而實現了萬億參數模型在極大量數據（15.5 兆 token）上的穩定訓練，解決了大型模型訓練中常見的「注意力 logits 爆炸」問題。這被視為一個數學上的突破，強調底層優化演算法對 LLM 擴展能力的關鍵作用。

Kimi K2 的另一個重大特點是其「智能代理訓練」。模型在涵蓋數百個領域、使用數千種工具的模擬場景中進行訓練，包括 API 調用、Shell 命令和 SQL 查詢。高品質的互動數據由一個 LLM 評審模型進行篩選。這種專業訓練賦予 Kimi K2 自主分解複雜任務、選擇合適工具並糾正錯誤的能力。它展現出獨特的「任務執行韌性」，即一種「行動偏好」，能夠不知疲倦地執行多輪迭代搜索和指令，而非僅僅依賴現有知識。這將 LLM 從被動的資訊提供者轉變為主動的問題解決者，能夠執行複雜的多步驟工作流程。

參數規模與上下文窗口的軍備競賽

兩款模型都在參數規模和上下文窗口上持續推進界限。Qwen3-235B 原生支援高達 262,144 個 token 的上下文窗口（262K），這對於處理超長文檔或程式碼庫相當重要。Kimi K2 其上下文窗口也達到 128,000 個 token（128K），同樣能高效處理大量資訊。這些數字共同反映出業界對「長上下文」能力的高度重視，因為它直接決定了模型處理複雜、多層次資訊的能力。

基準測試對決：誰是各領域的真正霸主？

在當前競爭激烈的 AI 領域，基準測試成績是衡量模型實力的重要指標。Qwen3-235B 和 Kimi K2 在各自專長的領域都展現了令人印象深刻的表現。

Qwen3-235B 的綜合實力展現

Qwen3-235B-A22B 在「思考模式」下，面對 MATH-500、AIME（數學競賽）、LiveCodeBench v5（程式碼）和 CodeForces（程式碼評級）等多項基準測試時，與 OpenAI-o1、DeepSeek-R1、Grok-3-Beta 和 Gemini2.5-Pro 等領先模型相比，表現出高度競爭力，甚至在多數情況下超越它們。例如，在 AIME'24 和 AIME'25 測試中，Qwen3-235B-A22B 分別獲得 85.7 和 81.5 分，幾乎超越了所有比較模型。

Qwen3: Think Deeper, Act Faster

更令人驚訝的是，Qwen3-235B-A22B 在「非思考模式」下的表現。它在 23 個基準測試中有 18 個超越了 GPT-4o，這表明即使不進行多步驟推理，模型本身也具備強大的固有能力，這對需要快速、直接回應的應用場景提供了巨大的效率優勢。

Kimi K2 在代理與程式碼的突出表現

Kimi K2 則在軟體工程和智能代理任務上展現出卓越的性能。在 SWE-bench Verified 基準測試（軟件工程）中，Kimi K2 的 pass@1 分數達到 65.8%，與 Claude 4 Sonnet 持平，並超越 DeepSeek-V3 (56.1%) 和 GPT-4.1 (40.8%)。在有重試機會的情況下，其 SWE-bench 表現甚至達到 71.6%。這證明了其在自主程式碼開發和錯誤修復方面的強大能力。

Kimi K2: Open Agentic Intelligence

在數學推理方面，Kimi K2 在 MATH-500 上獲得 97.4%，超越 GPT-4.1 的 92.4%。對於程式碼任務，它在 LiveCodeBench 上獲得 53.7%，同樣超越 GPT-4.1 (44.7%) 和 DeepSeek-V3 (46.9%)。Kimi K2 在 AceBench 和 Tau-2 Bench 等代理任務上的出色表現，進一步證實了其作為智能代理的領先地位。尤其是在創意寫作和寫作基準測試上，Kimi K2 表現略優於 Qwen3。

TN科技筆記的觀點

MoE 架構的成熟與普及: Qwen3 和 Kimi K2 都採用 MoE，且取得了令人信服的性能，這可能代表 MoE 將成為未來 LLM 的主流架構之一，尤其是在追求極大規模與推論效率的平衡時。
開源力量的崛起: 兩者都是開放權重（Open-weight）模型，這大大降低了開發者和研究人員進入尖端 AI 領域的門檻。這種趨勢將加速全球 AI 的創新速度，並可能孵化出更多樣化、更具針對性的應用。
專業化與通用性的並行發展: Qwen3 嘗試在通用性（多語言、混合思考模式）上做到極致，而 Kimi K2 則在智能代理、程式碼和優化器創新上實現了深度突破。這說明 AI 發展不再是單一賽道，而是走向了通用能力與垂直領域專業化並重的格局。