語言模型大評比 (不專業選型)

更新於 發佈於 閱讀時間約 20 分鐘

English version:

英文版在 hackmd


想做 Agent、使用語言模型時,是否有過「我該選哪個」的疑問?

本篇整理各家開源模型,讓選擇更明智

# 開源簡單說就是,路人都能拿到該模型


語言模型們




本篇不討論技術細節,僅針對「技術選型」 (Technology Selection)整理模型

介紹對象為常見、開源的語言模型,閉源模型不會多加著墨

# 精煉版請參閱文首 hackmd (內含表格),下文會用白ㄧㄝˋ話ㄩˊ、但較不結構化的方式,介紹各語言模型




正文開始:

當然是由最火熱的 DeepSeek 打頭陣囉!

DeepSeek-R1DeepSeek-V3,兩者參數量都很驚人 (685B,超巨大)、皆可吞吐 128k 的 token,不過 R1 歷經「事後調教」,推理能力和表現更強

他們用 MoE (Mixture of Experts)混合專家模型架構,也就是回答時僅啟動部分「專家」,而非活化整個巨大模型 (單問題只用 37B 參數應付,是總大小的 1/20,很省吧!)

DeepSeek 訓練過程用了很多聰明方法,節省大量運算資源,詳情可見官方論文

需注意的是,R1 用 MIT 授權開源、V3 則用 DeepSeek 條款授權。前者真開源,後者限制較多

DeepSeek 這操作挺神奇的,一般都是開源次等貨、保留旗艦款,他們卻把王牌送給大家用,加速學界良性競爭

市場也因此白熱化,掀起開源模型熱潮。許多強大模型紛紛開源,甚至一度促成「開源勝過閉源」的盛況

官方也把 R1 蒸餾在幾個在阿里巴巴的 Qwen 模型上,一樣都能推理

不過 DeepSeek 也存在一些缺點:

  • 中文容易跳成簡體,在地化不便
  • 對特定政治、歷史內容屏蔽,相關領域使用上可能受限

Perplexity 有拿 R1 特別微調了一隻 r1-1776,移除對歷史、政治內容的管制,有興趣可試試



再來介紹加拿大公司 Cohere 的模型

Cohere 主打專長、特化模型,比起通用模型 (如 GPT),為特定領域打造專屬模型更省資源、理論上也能表現更好

Aya-101,是他們早年釋出的 LLM,號稱支援 101 種語言

Command 系列 (Command A、Command R...),是為科學、工業打造的模型,小從 8B 大到 104B 的都有 (小矮人到大巨人)

Command 家族支援 23 種語言以上、能吞 128k 字符量、而且「對話內容幾乎無限制」

一般對話外,犯罪、傷害、成人內容等一概「不需越獄、誘導」,直接問他就會直接答,簡直完美

本文章為中立介紹,未鼓吹各位亂搞,自己跟模型聊爽就好,別說是我教的

特別的是,Coherer 用 CC-BY-NC-4.0 開源這群模型。CC 通常被用在藝文創作,拿來授權語言模型實屬罕見 (後來 Nvidia 也把 OpenMath nemotron 用 CC 開源,不知是否受 Cohere 啟發)

Command 系列的缺點是延遲:提問後要等許久,才會得到回答




緊接著,是阿里巴巴的 Qwen (通義千問)模型

Qwen 系列多數都是 Apache 2.0 開源的 (i.e. 真開源),而且從很早就這麼做,因此很不少社群模型 (業餘開發者微調的)是基於 Qwen 練成

基本款可能表現普通,但後代千變萬化,有很會寫程式的會推理的 (QwQ,此非表情符號,他家模型就叫這名字)...

Qwen3 算是新系列模型,採 MoE架構,表現提升不少

且 480B 的 Qwen3 Coder 在寫程式能力上,幾乎追平原先王者 Claude Sonnet 4,讓開源不再是「妥協」

神奇的是,Qwen 對歷史、政治議題似乎很開放,就像一般模型一樣。天安門可以直接問,不會遭拒

我一直很好奇,對岸居然允許這種事發生!?

Qwen 的缺點是:

  • 有些模型是 Qwen 授權條款釋出,不是全無限制。使用前要看清楚,以免侵權
  • 推理模型 QwQ 偶爾會失控輸出亂碼,而且對政治、歷史議題有回避性
  • 就算有引導,仍易跳成簡體字,應與訓練資料不平衡有關
  • 和常見模型如 GPT、Gemini 一樣,會遵循政治正確、道德規範應答 (i.e. 想犯罪的請改道,謝謝)




再來是我很喜歡的一家公司 - Mistral

相信有在關注開源的人,應該對 Mistral 不陌生

這家法國公司擅長清整資料,用高品質的資料練出精實模型,模型普遍較小卻有大模型的能力,常常勝過他牌兩倍大模型的表現,而且多數都開源,因此也是社群模型的常見基石

Mistral 7B 勝過同期 Meta 的 Llama 2 14B 模型,46B 的 MoE (多專家模型)則匹敵 Llama 3 70B

新的 Mistral small 24B 表現也不錯,微調出程式專長的標竿 Devstral、Mistral 第一個推理模型 Magistral

Mistral 系列同樣不回答有害內容,且模型普遍偏小 (50B 以下)

因為小模型推論較省資源,API 價格相對親民

需注意的是,多數 Mistral 模型雖然是 Apache 2.0 開源,但有部分是 MNPL、MRL 授權,不能商用,記得先看清楚

有趣的一點是,Mistral 很愛用諧音哏命名模型!

  • 視覺模型叫 Pixtral (畫素 Pixel + mistral)
  • 小模型叫 Ministral (Mini + mistral)
  • 多專家 (MoE)模型叫 Mixtral (Mixture + mistral)

他們還有用 Mamba 架構練出程式助手 Codestral,適合處理長文 (正好適合讀寫程式碼)

這麼愛用諧音哏,都懷疑 Mistral 雇用台灣人專職取名

後來推出的新模型 Mistral small 3.1,也成為精煉模型的代表 (才 24B)

此模型還被微調成程式專長 Devstral,benchmark 上壓過 Qwen3 和 DeepSeek R1,很驚人吧 (而且都是真開源)!

後續又微調出 Magistral,是 Mistral 的推理模型,喜歡開源小模型的人,終於也能玩到推理了


Mistral 模型的缺點:

  • 內容變化有限,畢竟模型小
  • 防堵有害內容,偶爾會擋過頭 (像 GPT 那樣)
  • 下載前必須同意隱私條款,足夠擋退隱私社群 (例如我)




月球暗面 Moonshot 推出巨型開源模型,Kimi K2

以往開源模型多在 400B 以下,DeepSeek 已經算很笨重的模型了

而這家中國公司,推出胖達 1T 的模型,和 DeepSeek 一樣採混合專家 (MoE)設計,使用起來會比較快、省資源

重點是 Kimi K2 趕上各家閉源旗艦模型,在 benchmark 上打得不分軒輊,且實際表現也很亮眼,頗受社群開發者愛戴

有趣的是,這家公司從前就推出過其他模型,但表現實在不怎麼樣,因此乏人問津

直到這次才一舉成名,受到世人矚目

缺點:

  • 非為某功能特製的模型,講求「平均高表現」
  • 模型很笨重,自行架設硬體門檻大
  • 中國公司,若用官方服務,資安...




接著就是 Llama 囉!

Llama 系列可說是第一批開源的語言模型,當初 Meta 酸了 OpenAI 一陣,並轟轟烈烈推出 Llama,是開源模型的先驅

Llama 3 系列從 1B 到 406B 都有,包辦了各棲位。雖然表現不如專練特定尺寸模型的公司,但在各大小都有不錯的成績 (i.e. 不是第一名,但至少是前十名)

所以很多社群開發者、第三方公司都微調 Llama 成客製化模型,例如聯發科的 Breeze、輝達的 Nemotron (Nvidia 挺行的,把 Llama 調教成推理模型)

Llama 4 在 2025 第一季火熱釋出,為多專家模型 (MoE)、吞吐量驚人、天生支援多模態 (multi-modal,能看圖片)、號稱表現優異,堪稱開源陣營的強心針

成員有:

  • Maverick (獨行俠):
    • 共 400B,有128 個專家,每次啟動 17B (約為 DeepSeep 2/3 大小)
    • 需 ≈788GB 空間才存得下
    • 一次能看 1M 的 token 數 (i.e. 能看比 Claude Sonnet 五倍長的文章)
  • Scout (偵查兵):
    • 共 109B,有 16 位專家,每次啟動 17B
    • 需 ≈210GB 空間才存得下
    • 能讀 10M 的輸入,是 Maverick、GPT 的十倍,適合處理長文本
  • Reasoning (推理模型)

號稱會推出,之後就沒下文了

  • Behemoth (地獄巨獸貝西摩斯)

一直在預覽階段,不知何時才會釋出

多虧 MoE 架構,Llama 4 的推論 (inference)成本很低,所以第三方 API 通常價格親民


諷刺的是,Llama 4 在社群測評翻車了,許多 benchmark (語言模型的考試)都吊車尾

Meta 被懷疑先給模型看過特定評量的答案,否則模型才這點程度,怎麼有辦法在官方測試中表現亮眼,但 Meta 否認這項指控

Llama 4 introduction in English:

缺點:Llama 系列是用 Llama license 授權釋出,是有不少限制的半開源

  • 微調模型需冠名 Llama
  • 微調後的授權也要附上 Llama license
  • 大規模商用有限制
  • ...



OpenAI 終於也開源 GPT 啦!

OpenAI 在 2025 年 8 月 5 號,首次擺脫 CloseAI 的惡名,推出兩個 GPT OSS 模型,120B 和 20B (約莫是 Llama 和 Mistral 的大小)

跟上各種流行,包括混合專家 (MoE)、可調推理 (reasoning)能力、工具使用...

至於實際表現如何,還有待社群測評




近期竄升的 Zai 的 GLM

前陣子在開發者社群爆紅的 GLM 4.5,是 MIT 授權開源 (真開源)的強大模型

之所以竄紅,是因為 GLM 4.5 僅有 355B 參數量,卻能略勝 1T 的 Kimi K2

等於是減重三分之一的頂尖模型,維運成本大幅降低 (當然,對散戶來說還是太大)

中國公司 Zai 也同步推出較輕量的版本,GLM 4.5 Air,雖說輕量但也有 110B


缺點:

  • 若用官方服務,需小心隱私問題 (畢竟是中國公司)
  • 訓練資料可能有「不平衡」問題,意即中文易跳成簡體字
  • 其他不清楚,沒親自試用過




接下來要介紹的是小語言模型 (Small Language Model, SLM)

一般常聽到大語言模型 (Large Language Model, LLM),不過小而精鍊的模型,運用資源更有效率、也更容易在邊緣裝置使用

我比較想叫他們 Little Language Model,感覺比較可愛、而且縮寫也會是 LLM




第一位是 - Falcon

這可能相對冷門,Falcon 是阿聯酋的科技創新研究院 (Technology Innovation Institute, TII)所研製

他們和 Mistral 走相似路線,對訓練資料精煉再精煉,推出的模型也多在 10B 以下 (僅有個 40B 的例外)

而且主打「用網路上公開的資料,就能練出強大模型」

Falcon 問世時打敗 Llama 2,並用 Apache 2.0 開源釋出

Falcon 3 則是在推出時,勝過其他相近尺寸模型。在同參數量的條件下,表現是 Mistral、Llama 3、Qwen、Gemma 2 (Google 的小模型)的幾乎兩倍好

Falcon H1 系列同樣維持低參數量、高表現,讓 TII 驕傲地宣傳「比起『大』模型,『聰明』模型更有用」

缺點:

  • Falcon 3 的授權條款是 Falcon 3 TII,和 H1 一樣使用上有限制
  • Falcon 系列輸出容易變成簡體中文,畢竟網路上的資料比例不同




Google 除了閉源的 Gemini,也有開源模型 Gemma 喔!

Gemma 2 和 Gemma 3 都在 27B 以下,旨在提供邊緣裝置 (e.g. 筆電)使用

儘管 Google 發揮洗榜功力,在 benchmark 取得不錯成績,Gemma 2 一問世就被壓在地上摩擦,表現不值一提

尤其這東西用 Gemma 條款授權,限制很多。模型爛又綁手綁腳,誰要用它?

Gemma 3 擺脫陰霾,在不少測評中表現良好,算是社群愛用模型之一

而且相較 Gemini,對言論的敏感度較低,不會隨便 ban 人

缺點:Gemma license 和真開源相比,多了些限制




微軟也有開源模型,Phi 家族~

向來排斥開源的微軟,相較素來擁抱開源的 Google,居然用 MIT 授權 (真開源,要商用也隨便你)丟出模型,驚不驚喜,意不意外呀?

Phi 3 可說是試水溫,3B 到 14B 都有 (Phi 2 以前的過氣了,假裝不存在)

Phi 3.5 開始興盛,小至 3.8B、大到 40B,測評表現良好、推論效率高

Phi 4 是 14.7B 的模型,各項測評表現佳,甚至贏過 Gemini 1.5 flash (那可是好幾倍大的 LLM)

而且微軟也微調了很多版本,有多模態的會推理的多專家的...,供直接取用

所以要選用中小語言模型時,非常推薦 Phi 系列!

缺點:

  • 束縛較嚴重,正常問題也有機會拒答,政治正確也比較明顯 (微軟練的,不意外。終究還是保守派)
  • 進階設定和常見模型不同,要微調會比較麻煩



開源 AI 大本營,Hugging Face 自練模型

各方武林高手開源自身模型時,通常會放到 Hugging Face 平台上,其可謂 AI 界的 Github (簡單說就是免錢的線上市集,可以上去隨意下載模型)

這家公司也有自己練小語言模型 - SmolLM2SmolLM3

相較前述,SmolVLM 非常迷你,最小的 135M,最大的也才 1.7B,真的可在筆電、手機上運作 (官方有示範過),且以 Apache 2.0 釋出,想拿來幹嘛就幹嘛

衍生的 SmolVLM 則是支援視覺的版本 (能看圖)

Hugging Face 團隊測試了幾個建模策略,讓模型在小尺度下獲得驚人視覺能力,成為時下標竿 (State-Of-The-Art, SOTA),詳情可見官方論文

缺點:

  • 主要支援英文,據說不會說中、日、韓文

實測其實沒問題,而且模型會用中文說「我看得懂中文,但無法用中文回答」,有點可愛

  • 困難任務無法勝任,畢竟模型太小




LFM2 邊緣運算用模型

Liquid Foundation Model, LFM,是 LiquidAI 推出、目標為邊緣裝置的模型,因此模型最大 1.2B、最小才 350M

# 邊緣裝置指邊緣人的設備筆電、手機、穿戴裝置等算力較低的設備

LiquidAI 是一群史丹佛學者成立的公司,模型有許多新穎設計,訓練更快、所需資源更少,而且 benchmark 表現良好

因為從設計架構就不同,不只在 GPU 上,連 NPU 甚至 CPU 都能運行 LFM 模型

缺點:

  • 用 LFM open Licence 授權,對商用有些限制
  • 模型小,雖可支援工具使用、代理人功能,但不建議用於「知識密度高」、「寫程式」等工作




IBM 也參戰,堅若磐石的小模型~

為什麼說堅若磐石?

因為他們將模型命名為「Granite」,就是花崗岩;訓練資料集叫「GneissWeb」,Gneiss 是花崗片麻岩 (花崗岩變質而成,國小自然教過喔!)

Granite 家族多在 3B-7B,算是很輕量的模型

儘管參數少,官方仍進一步採 MoE架構,讓效能提升、延遲降低、硬體需求更寬鬆

Granite 3.3 有不少下游模型,例如視覺專長、語音處理、RAG、agent...

Granite 4.0 還在預覽階段,基本上就是前一代的能力提升

你猜怎麼樣?

Granite 系列在開發者間,可是好評浪潮不斷,雖然模型小、又拆分成不同專家,卻有傑出的表現,很值得一試

缺點:

  • 我沒找到免費的 API,畢竟模型小,官方大概覺得開發者可自行部署
  • 官方微調版本眾多,需記得依任務選最適合的
  • 知名度莫名低,討論時常得先介紹




Stability AI 除了製圖模型,也有推出語言模型

有玩 AI 生圖的人應該不陌生,這家公司就是大名鼎鼎 Stable Diffusion 的發行者

生圖模型要有好的任務描述,才能生出高品質的圖。鑑於一般人語言能力有限,決定圖片水準的瓶頸往往是文字輸入,所以可藉文字編碼器 (encoder)做輔助

就是怕你國文不好,他找人幫你修咒語的意思

StableLM 最小 1.6B 最大 12B、程式助手 Stable-code 則是 3B

據說他們也是為了在受限硬體中使用,才會特地練小模型


為什麼講得很簡略?

因為測評表現普通,甚少人使用,相關資料也頗缺乏

而且語言模型和 Stable Diffusion 一樣,用 Stability AI 條款授權,並非傳統開源,使用上有些限制

總之就是不推薦,又何必多言呢?




讀到這,你可能會好奇,Grok 呢?

不是聽說 xAI 有開源模型嗎?

嗯,Grok 只有第一代開源,後面都閉源

他們的 CEO 曾批評 OpenAI 不 Open,結果自己還不是一樣...

為什麼沒介紹 Grok?

因為那東西太糟糕了,grok-1 參數量 314B (DeepSeek 一半大),但各種 Benchmark 表現平平,還輸給 1/3 大小的 Claude 2

說開源,結果各種文件、說明卻付之闕如,大概只是做個形式

吹噓和外宣可以,但實際上沒人要用 (模型大 → 使用成本高;又貴又笨,還是放垃圾場裡就好)







介紹告一段落,內容如有誤歡迎糾正

篇首的 Hackmd 筆記會隨時間更新,此方格文可能就...比較慢一點 (別罵那麼難聽嘛!結構化的表格比較好調整啊!)


感謝收看







留言
avatar-img
留言分享你的想法!
avatar-img
移幣的沙龍
4會員
15內容數
技術文章、文學抒發、低門檻創意實作教學,想收到通知歡迎加入
你可能也想看
Thumbnail
TypeScript是一種由Microsoft開發和維護的開源編程語言。它是JavaScript的超集,主要擴展了JavaScript的語法,增加了靜態類型檢查和其他特性,使得開發大型應用程序更為方便和可靠。
Thumbnail
TypeScript是一種由Microsoft開發和維護的開源編程語言。它是JavaScript的超集,主要擴展了JavaScript的語法,增加了靜態類型檢查和其他特性,使得開發大型應用程序更為方便和可靠。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
JavaScript是一種具有動態型別、弱型別、原型繼承等特性的高級腳本語言,應用範圍廣泛,包括前端開發、後端開發、移動應用等。它被各種公司和開源社區廣泛使用。學習JavaScript需要掌握ECMAScript標準、異步編程、模塊系統等知識。
Thumbnail
JavaScript是一種具有動態型別、弱型別、原型繼承等特性的高級腳本語言,應用範圍廣泛,包括前端開發、後端開發、移動應用等。它被各種公司和開源社區廣泛使用。學習JavaScript需要掌握ECMAScript標準、異步編程、模塊系統等知識。
Thumbnail
C#是一種開源、跨平台、面向對象的編程語言,具有類型安全、泛型、模式匹配等特性。廣泛應用於桌面和Web應用程序、遊戲開發、移動應用、雲計算等領域。全球數十萬家公司像微軟、Unity Technologies、Stack Overflow等使用C#支持其業務。C#還提供豐富的進階學習資源和主題。
Thumbnail
C#是一種開源、跨平台、面向對象的編程語言,具有類型安全、泛型、模式匹配等特性。廣泛應用於桌面和Web應用程序、遊戲開發、移動應用、雲計算等領域。全球數十萬家公司像微軟、Unity Technologies、Stack Overflow等使用C#支持其業務。C#還提供豐富的進階學習資源和主題。
Thumbnail
學習如何使用Python連接MongoDB進行憑證監控,包括建立MongoDB docker-compose、連接MongoDB、讀取yaml並寫入MongoDB、傳入env以及domain寫入MongoDB、讀取MongoDB、修改MongoDB、刪除MongoDB。
Thumbnail
學習如何使用Python連接MongoDB進行憑證監控,包括建立MongoDB docker-compose、連接MongoDB、讀取yaml並寫入MongoDB、傳入env以及domain寫入MongoDB、讀取MongoDB、修改MongoDB、刪除MongoDB。
Thumbnail
軟體系統的發展歷程大多相似,首重解決基本需求、提供操作介面,進而提升安全性、擴充功能、優化操作。
Thumbnail
軟體系統的發展歷程大多相似,首重解決基本需求、提供操作介面,進而提升安全性、擴充功能、優化操作。
Thumbnail
當我們在撰寫一套系統的時候, 總是會提供一個介面讓使用者來觸發功能模組並回傳使用者所需的請求, 而傳統的安裝包模式總是太侷限, 需要個別主機獨立安裝, 相當繁瑣, 但隨著時代的演進與互聯網的崛起, 大部分的工作都可以藉由網頁端、裝置端來觸發, 而伺服端則是負責接收指令、運算與回傳結果, 雲端
Thumbnail
當我們在撰寫一套系統的時候, 總是會提供一個介面讓使用者來觸發功能模組並回傳使用者所需的請求, 而傳統的安裝包模式總是太侷限, 需要個別主機獨立安裝, 相當繁瑣, 但隨著時代的演進與互聯網的崛起, 大部分的工作都可以藉由網頁端、裝置端來觸發, 而伺服端則是負責接收指令、運算與回傳結果, 雲端
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News