兩大開源模型推出:Qwen3-235B 與 Kimi K2 如何掀起開源模型風暴?

更新 發佈閱讀 10 分鐘

兩款最新的開源大型語言模型正以其突破性的能力,掀起一場新的風暴:阿里巴巴的 Qwen3-235B 系列,以及月之暗面的 Kimi K2。它們以其「開源」姿態,將頂尖 AI 技術推向更廣闊的開發者與研究社群。這兩款模型代表了當前 AI 發展的兩大重要方向:一是追求更通用的理解與推理能力,另一則是專注於打造更強大的智能代理。TN科技筆記帶各位來深入了解這兩款模型,幫助你掌握 AI 領域的最新趨勢。

Qwen3-235B:全能型選手的再次進化

raw-image

Qwen3: Think Deeper, Act Faster

由阿里巴巴雲「通義千問」團隊打造的 Qwen3 系列,其中旗艦模型 Qwen3-235B-A22B 在 2025 年 4 月 29 日首次亮相,並於 7 月 21 日推出了最新的 Qwen3-235B-A22B-Instruct-2507 更新。這是一款基於 MoE(Mixture-of-Experts,專家混合)架構的模型,總參數高達 2350 億,但在推論時僅啟動 220 億參數,實現高性能與高效率的平衡。

Qwen3-235B 的核心亮點是其獨特的「混合思考模式」(Hybrid Thinking Modes),能夠在需要深度推理的複雜任務(如數學、程式碼)和需要即時回應的對話場景之間無縫切換。此外,它在多語言支援方面也表現出色,訓練數據涵蓋 119 種語言和方言,語料庫規模達到驚人的 36 兆 token,顯示其放眼全球市場的野心。Qwen3 系列採用 Apache 2.0 許可證開源,高度自由的授權方式讓它迅速成為開發者社群的新寵。

Kimi K2:智能代理的破局者

raw-image

Kimi K2: Open Agentic Intelligence

緊隨其後,由中國新創公司月之暗面(Moonshot AI)於 2025 年 7 月 12 日發布的 Kimi K2 模型,同樣採用 MoE 架構的模型,雖然總參數高達 1 兆(10000 億),但每次推論僅啟動 320 億參數,展現出極致的稀疏性設計。

Kimi K2 的設計理念明確:專注於「智能代理能力」(Agentic Capabilities)。它能自主執行多步驟任務,例如程式碼撰寫、數據分析,並能靈活運用工具。這得益於其創新的「MuonClip 優化器」以及專為智能代理任務設計的訓練範式。開發社群對其在代理與程式碼領域的強大表現讚譽有加,甚至認為它在某些方面已超越了部分閉源模型。

核心技術剖析:MoE、思維模式與智能代理的幕後推手

這兩款模型之所以能夠達到領先地位,都離不開其背後精妙的架構設計與訓練創新。

Qwen3 的「混合思考模式」與多語言支持

Qwen3-235B 的 MoE 架構包含 128 位專家,每次推論過程啟用 8 位專家。其最引人注目的創新無疑是「混合思考模式」。這個機制允許模型在「思考模式」(Thinking Mode)下進行分步推理,適用於數學、邏輯推理等需要深度思考的複雜問題,此時模型會花費更多時間以確保結果的準確性;而在「非思考模式」(Non-Thinking Mode)下,模型則能快速提供近乎即時的回答,適合對話、資訊檢索等對速度要求較高的場景。這種靈活性讓使用者能根據任務需求,在模型響應速度和深度之間進行動態平衡。值得注意的是,其指令微調版本 Qwen3-235B-A22B-Instruct-2507 則不具備明確的「思考模式」開關,而是設計為直接提供答案,顯示阿里巴巴在特定模型變體上追求特定優化的策略。

此外,Qwen3 龐大的 36 兆多語言訓練數據集是其能夠處理 119 種語言和方言的基礎。這不僅僅是一個「功能」,更是一個戰略性的佈局,將 Qwen3 定位為真正的全球性 AI 解決方案,以滿足全球多元語言市場的需求。

Kimi K2 的「MuonClip 優化器」與智能代理訓練

Kimi K2 雖然總參數達到 1 兆,但其 MoE 架構的稀疏性高達 32:1000,即每 token 僅激活 320 億參數。這使得它在極端規模下仍能保持高效推論。其最核心的技術創新是「MuonClip 優化器」,特別是其中的「qk-clip」技術。這項技術透過在每次更新後重新縮放查詢 (Wq) 和鍵 (Wk) 的權重矩陣,來穩定注意力分數,從而實現了萬億參數模型在極大量數據(15.5 兆 token)上的穩定訓練,解決了大型模型訓練中常見的「注意力 logits 爆炸」問題。這被視為一個數學上的突破,強調底層優化演算法對 LLM 擴展能力的關鍵作用。

Kimi K2 的另一個重大特點是其「智能代理訓練」。模型在涵蓋數百個領域、使用數千種工具的模擬場景中進行訓練,包括 API 調用、Shell 命令和 SQL 查詢。高品質的互動數據由一個 LLM 評審模型進行篩選。這種專業訓練賦予 Kimi K2 自主分解複雜任務、選擇合適工具並糾正錯誤的能力。它展現出獨特的「任務執行韌性」,即一種「行動偏好」,能夠不知疲倦地執行多輪迭代搜索和指令,而非僅僅依賴現有知識。這將 LLM 從被動的資訊提供者轉變為主動的問題解決者,能夠執行複雜的多步驟工作流程。

參數規模與上下文窗口的軍備競賽

兩款模型都在參數規模和上下文窗口上持續推進界限。Qwen3-235B 原生支援高達 262,144 個 token 的上下文窗口(262K),這對於處理超長文檔或程式碼庫相當重要。Kimi K2 其上下文窗口也達到 128,000 個 token(128K),同樣能高效處理大量資訊。這些數字共同反映出業界對「長上下文」能力的高度重視,因為它直接決定了模型處理複雜、多層次資訊的能力。

基準測試對決:誰是各領域的真正霸主?

在當前競爭激烈的 AI 領域,基準測試成績是衡量模型實力的重要指標。Qwen3-235B 和 Kimi K2 在各自專長的領域都展現了令人印象深刻的表現。

Qwen3-235B 的綜合實力展現

Qwen3-235B-A22B 在「思考模式」下,面對 MATH-500、AIME(數學競賽)、LiveCodeBench v5(程式碼)和 CodeForces(程式碼評級)等多項基準測試時,與 OpenAI-o1、DeepSeek-R1、Grok-3-Beta 和 Gemini2.5-Pro 等領先模型相比,表現出高度競爭力,甚至在多數情況下超越它們。例如,在 AIME'24 和 AIME'25 測試中,Qwen3-235B-A22B 分別獲得 85.7 和 81.5 分,幾乎超越了所有比較模型。

raw-image

Qwen3: Think Deeper, Act Faster

更令人驚訝的是,Qwen3-235B-A22B 在「非思考模式」下的表現。它在 23 個基準測試中有 18 個超越了 GPT-4o,這表明即使不進行多步驟推理,模型本身也具備強大的固有能力,這對需要快速、直接回應的應用場景提供了巨大的效率優勢。

Kimi K2 在代理與程式碼的突出表現

Kimi K2 則在軟體工程和智能代理任務上展現出卓越的性能。在 SWE-bench Verified 基準測試(軟件工程)中,Kimi K2 的 pass@1 分數達到 65.8%,與 Claude 4 Sonnet 持平,並超越 DeepSeek-V3 (56.1%) 和 GPT-4.1 (40.8%)。在有重試機會的情況下,其 SWE-bench 表現甚至達到 71.6%。這證明了其在自主程式碼開發和錯誤修復方面的強大能力。

raw-image

Kimi K2: Open Agentic Intelligence

在數學推理方面,Kimi K2 在 MATH-500 上獲得 97.4%,超越 GPT-4.1 的 92.4%。對於程式碼任務,它在 LiveCodeBench 上獲得 53.7%,同樣超越 GPT-4.1 (44.7%) 和 DeepSeek-V3 (46.9%)。Kimi K2 在 AceBench 和 Tau-2 Bench 等代理任務上的出色表現,進一步證實了其作為智能代理的領先地位。尤其是在創意寫作和寫作基準測試上,Kimi K2 表現略優於 Qwen3。

TN科技筆記的觀點

  • MoE 架構的成熟與普及: Qwen3 和 Kimi K2 都採用 MoE,且取得了令人信服的性能,這可能代表 MoE 將成為未來 LLM 的主流架構之一,尤其是在追求極大規模與推論效率的平衡時。
  • 開源力量的崛起: 兩者都是開放權重(Open-weight)模型,這大大降低了開發者和研究人員進入尖端 AI 領域的門檻。這種趨勢將加速全球 AI 的創新速度,並可能孵化出更多樣化、更具針對性的應用。
  • 專業化與通用性的並行發展: Qwen3 嘗試在通用性(多語言、混合思考模式)上做到極致,而 Kimi K2 則在智能代理、程式碼和優化器創新上實現了深度突破。這說明 AI 發展不再是單一賽道,而是走向了通用能力與垂直領域專業化並重的格局。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
45會員
152內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/07/21
法國 AI 新創 Mistral AI 繼參與大型語言模型領域後,於 2025 年 7 月 15 日也正式發布其首個開源語音模型家族—— Voxtral。Voxtral 不僅宣稱在性能上超越市場領導者,更以極具競爭力的成本效益,為企業與開發者帶來了前所未有的自由度。讓TN科技筆記帶你一探究竟。
Thumbnail
2025/07/21
法國 AI 新創 Mistral AI 繼參與大型語言模型領域後,於 2025 年 7 月 15 日也正式發布其首個開源語音模型家族—— Voxtral。Voxtral 不僅宣稱在性能上超越市場領導者,更以極具競爭力的成本效益,為企業與開發者帶來了前所未有的自由度。讓TN科技筆記帶你一探究竟。
Thumbnail
2025/07/18
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
2025/07/18
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
2025/07/11
xAI 最新推出的 AI 模型 Grok 4於 2025 年 7 月 10 日發布,直指 OpenAI 的 ChatGPT 和 Google 的 Gemini,TN科技筆記立刻帶各位看看本次的線上發布會重點!
2025/07/11
xAI 最新推出的 AI 模型 Grok 4於 2025 年 7 月 10 日發布,直指 OpenAI 的 ChatGPT 和 Google 的 Gemini,TN科技筆記立刻帶各位看看本次的線上發布會重點!
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
AI技術的發展如日中天,但也引發了許多道德與創作者權益的議題。從初期到現在的變化,AI的發展對創作者而言是一大挑戰,無論是哪種AI使用者,AI的出現,不代表我們要放棄思考。
Thumbnail
AI技術的發展如日中天,但也引發了許多道德與創作者權益的議題。從初期到現在的變化,AI的發展對創作者而言是一大挑戰,無論是哪種AI使用者,AI的出現,不代表我們要放棄思考。
Thumbnail
人工智慧(AI)發展一日千里,年初OpenAI的Sora,三月初Anthropic的Cloude3,都為未來科技的創想帶來震撼。Elon Musk的X AI公司將他們的大型語言模型Grok-1開源,不僅展現了對AI技術開放共享的承諾,也預示著行業未來可能也會有不同於資本競爭、算力對抗的新發展方向。
Thumbnail
人工智慧(AI)發展一日千里,年初OpenAI的Sora,三月初Anthropic的Cloude3,都為未來科技的創想帶來震撼。Elon Musk的X AI公司將他們的大型語言模型Grok-1開源,不僅展現了對AI技術開放共享的承諾,也預示著行業未來可能也會有不同於資本競爭、算力對抗的新發展方向。
Thumbnail
誠品生活|科技應用 書櫃陳列著與AI相關軟硬體的科技應用實作材料包,包含物聯網、影像辨識、機器學習、生醫感測等實作套裝材料。 選擇趨勢|科技玩物 這麼多科技應用實作包,怎麼選呢? 科技日新月異 科技玩物在生活中反應的特徵詞: 顛覆、科幻、新奇、便利、酷炫、魔法、未來
Thumbnail
誠品生活|科技應用 書櫃陳列著與AI相關軟硬體的科技應用實作材料包,包含物聯網、影像辨識、機器學習、生醫感測等實作套裝材料。 選擇趨勢|科技玩物 這麼多科技應用實作包,怎麼選呢? 科技日新月異 科技玩物在生活中反應的特徵詞: 顛覆、科幻、新奇、便利、酷炫、魔法、未來
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News