語言模型大評比 (不專業選型)

更新 發佈閱讀 21 分鐘

English version:

英文版在 hackmd


想做 Agent、使用語言模型時,是否有過「我該選哪個」的疑問?

本篇整理各家開源模型,讓選擇更明智

# 開源簡單說就是,路人都能拿到該模型


語言模型們




本篇不討論技術細節,僅針對「技術選型」 (Technology Selection)整理模型

介紹對象為常見、開源的語言模型,閉源模型不會多加著墨

# 精煉版請參閱文首 hackmd (內含表格),下文會用白ㄧㄝˋ話ㄩˊ、但較不結構化的方式,介紹各語言模型




正文開始:

當然是由最火熱的 DeepSeek 打頭陣囉!

DeepSeek-R1DeepSeek-V3,兩者參數量都很驚人 (685B,超巨大)、皆可吞吐 128k 的 token,不過 R1 歷經「事後調教」,推理能力和表現更強

他們用 MoE (Mixture of Experts)混合專家模型架構,也就是回答時僅啟動部分「專家」,而非活化整個巨大模型 (單問題只用 37B 參數應付,是總大小的 1/20,很省吧!)

DeepSeek 訓練過程用了很多聰明方法,節省大量運算資源,詳情可見官方論文

需注意的是,R1 用 MIT 授權開源、V3 則用 DeepSeek 條款授權。前者真開源,後者限制較多

DeepSeek 這操作挺神奇的,一般都是開源次等貨、保留旗艦款,他們卻把王牌送給大家用,加速學界良性競爭

市場也因此白熱化,掀起開源模型熱潮。許多強大模型紛紛開源,甚至一度促成「開源勝過閉源」的盛況

官方也把 R1 蒸餾在幾個在阿里巴巴的 Qwen 模型上,一樣都能推理

不過 DeepSeek 也存在一些缺點:

  • 中文容易跳成簡體,在地化不便
  • 對特定政治、歷史內容屏蔽,相關領域使用上可能受限

Perplexity 有拿 R1 特別微調了一隻 r1-1776,移除對歷史、政治內容的管制,有興趣可試試



再來介紹加拿大公司 Cohere 的模型

Cohere 主打專長、特化模型,比起通用模型 (如 GPT),為特定領域打造專屬模型更省資源、理論上也能表現更好

Aya-101,是他們早年釋出的 LLM,號稱支援 101 種語言

Command 系列 (Command A、Command R...),是為科學、工業打造的模型,小從 8B 大到 104B 的都有 (小矮人到大巨人)

Command 家族支援 23 種語言以上、能吞 128k 字符量、而且「對話內容幾乎無限制」

一般對話外,犯罪、傷害、成人內容等一概「不需越獄、誘導」,直接問他就會直接答,簡直完美

本文章為中立介紹,未鼓吹各位亂搞,自己跟模型聊爽就好,別說是我教的

特別的是,Coherer 用 CC-BY-NC-4.0 開源這群模型。CC 通常被用在藝文創作,拿來授權語言模型實屬罕見 (後來 Nvidia 也把 OpenMath nemotron 用 CC 開源,不知是否受 Cohere 啟發)

Command 系列的缺點是延遲:提問後要等許久,才會得到回答




緊接著,是阿里巴巴的 Qwen (通義千問)模型

Qwen 系列多數都是 Apache 2.0 開源的 (i.e. 真開源),而且從很早就這麼做,因此很不少社群模型 (業餘開發者微調的)是基於 Qwen 練成

基本款可能表現普通,但後代千變萬化,有很會寫程式的會推理的 (QwQ,此非表情符號,他家模型就叫這名字)...

Qwen3 算是新系列模型,採 MoE架構,表現提升不少

且 480B 的 Qwen3 Coder 在寫程式能力上,幾乎追平原先王者 Claude Sonnet 4,讓開源不再是「妥協」

神奇的是,Qwen 對歷史、政治議題似乎很開放,就像一般模型一樣。天安門可以直接問,不會遭拒

我一直很好奇,對岸居然允許這種事發生!?

Qwen 的缺點是:

  • 有些模型是 Qwen 授權條款釋出,不是全無限制。使用前要看清楚,以免侵權
  • 推理模型 QwQ 偶爾會失控輸出亂碼,而且對政治、歷史議題有回避性
  • 就算有引導,仍易跳成簡體字,應與訓練資料不平衡有關
  • 和常見模型如 GPT、Gemini 一樣,會遵循政治正確、道德規範應答 (i.e. 想犯罪的請改道,謝謝)




再來是我很喜歡的一家公司 - Mistral

相信有在關注開源的人,應該對 Mistral 不陌生

這家法國公司擅長清整資料,用高品質的資料練出精實模型,模型普遍較小卻有大模型的能力,常常勝過他牌兩倍大模型的表現,而且多數都開源,因此也是社群模型的常見基石

Mistral 7B 勝過同期 Meta 的 Llama 2 14B 模型,46B 的 MoE (多專家模型)則匹敵 Llama 3 70B

新的 Mistral small 24B 表現也不錯,微調出程式專長的標竿 Devstral、Mistral 第一個推理模型 Magistral

Mistral 系列同樣不回答有害內容,且模型普遍偏小 (50B 以下)

因為小模型推論較省資源,API 價格相對親民

需注意的是,多數 Mistral 模型雖然是 Apache 2.0 開源,但有部分是 MNPL、MRL 授權,不能商用,記得先看清楚

有趣的一點是,Mistral 很愛用諧音哏命名模型!

  • 視覺模型叫 Pixtral (畫素 Pixel + mistral)
  • 小模型叫 Ministral (Mini + mistral)
  • 多專家 (MoE)模型叫 Mixtral (Mixture + mistral)

他們還有用 Mamba 架構練出程式助手 Codestral,適合處理長文 (正好適合讀寫程式碼)

這麼愛用諧音哏,都懷疑 Mistral 雇用台灣人專職取名

後來推出的新模型 Mistral small 3.1,也成為精煉模型的代表 (才 24B)

此模型還被微調成程式專長 Devstral,benchmark 上壓過 Qwen3 和 DeepSeek R1,很驚人吧 (而且都是真開源)!

後續又微調出 Magistral,是 Mistral 的推理模型,喜歡開源小模型的人,終於也能玩到推理了


Mistral 模型的缺點:

  • 內容變化有限,畢竟模型小
  • 防堵有害內容,偶爾會擋過頭 (像 GPT 那樣)
  • 下載前必須同意隱私條款,足夠擋退隱私社群 (例如我)




月球暗面 Moonshot 推出巨型開源模型,Kimi K2

以往開源模型多在 400B 以下,DeepSeek 已經算很笨重的模型了

而這家中國公司,推出胖達 1T 的模型,和 DeepSeek 一樣採混合專家 (MoE)設計,使用起來會比較快、省資源

重點是 Kimi K2 趕上各家閉源旗艦模型,在 benchmark 上打得不分軒輊,且實際表現也很亮眼,頗受社群開發者愛戴

有趣的是,這家公司從前就推出過其他模型,但表現實在不怎麼樣,因此乏人問津

直到這次才一舉成名,受到世人矚目

缺點:

  • 非為某功能特製的模型,講求「平均高表現」
  • 模型很笨重,自行架設硬體門檻大
  • 中國公司,若用官方服務,資安...




接著就是 Llama 囉!

Llama 系列可說是第一批開源的語言模型,當初 Meta 酸了 OpenAI 一陣,並轟轟烈烈推出 Llama,是開源模型的先驅

Llama 3 系列從 1B 到 406B 都有,包辦了各棲位。雖然表現不如專練特定尺寸模型的公司,但在各大小都有不錯的成績 (i.e. 不是第一名,但至少是前十名)

所以很多社群開發者、第三方公司都微調 Llama 成客製化模型,例如聯發科的 Breeze、輝達的 Nemotron (Nvidia 挺行的,把 Llama 調教成推理模型)

Llama 4 在 2025 第一季火熱釋出,為多專家模型 (MoE)、吞吐量驚人、天生支援多模態 (multi-modal,能看圖片)、號稱表現優異,堪稱開源陣營的強心針

成員有:

  • Maverick (獨行俠):
    • 共 400B,有128 個專家,每次啟動 17B (約為 DeepSeep 2/3 大小)
    • 需 ≈788GB 空間才存得下
    • 一次能看 1M 的 token 數 (i.e. 能看比 Claude Sonnet 五倍長的文章)
  • Scout (偵查兵):
    • 共 109B,有 16 位專家,每次啟動 17B
    • 需 ≈210GB 空間才存得下
    • 能讀 10M 的輸入,是 Maverick、GPT 的十倍,適合處理長文本
  • Reasoning (推理模型)

號稱會推出,之後就沒下文了

  • Behemoth (地獄巨獸貝西摩斯)

一直在預覽階段,不知何時才會釋出

多虧 MoE 架構,Llama 4 的推論 (inference)成本很低,所以第三方 API 通常價格親民


諷刺的是,Llama 4 在社群測評翻車了,許多 benchmark (語言模型的考試)都吊車尾

Meta 被懷疑先給模型看過特定評量的答案,否則模型才這點程度,怎麼有辦法在官方測試中表現亮眼,但 Meta 否認這項指控

Llama 4 introduction in English:

缺點:Llama 系列是用 Llama license 授權釋出,是有不少限制的半開源

  • 微調模型需冠名 Llama
  • 微調後的授權也要附上 Llama license
  • 大規模商用有限制
  • ...



OpenAI 終於也開源 GPT 啦!

OpenAI 在 2025 年 8 月 5 號,首次擺脫 CloseAI 的惡名,推出兩個 GPT OSS 模型,120B 和 20B (約莫是 Llama 和 Mistral 的大小)

跟上各種流行,包括混合專家 (MoE)、可調推理 (reasoning)能力、工具使用...

支援多模態 (multi-modal),或許是故意留的缺陷,讓你得繼續訂閱

# 簡單說就是看不到、聽不見,只能讀寫文字

社群評價兩極,文字獄嚴重,當程式助手卻一直拒絕回答

滿意呼聲也不少,畢竟「感受」本身較主觀

有人反映幻覺很多,不過該模型的設計就是「預設搭配工具使用」 (agentic)

能讓模型查資料,就會大幅減低此類問題

至於第三方評測,就「參數量」和「模型表現」而言,只算中段班

可能 OpenAI 追隨者很少接觸開源,無從比較就覺得 OSS 系列很棒


缺點:

  • 不支援多模態,看不到圖
  • 模型表現普通,並沒特別強
  • 如未搭配工具,幻覺會很多
  • 安全防護過頭,使用不方便

若摘要還得先越獄,不如直接改用 Mistral




近期竄升的 Zai 的 GLM

前陣子在開發者社群爆紅的 GLM 4.5,是 MIT 授權開源 (真開源)的強大模型

之所以竄紅,是因為 GLM 4.5 僅有 355B 參數量,卻能略勝 1T 的 Kimi K2

等於是減重三分之一的頂尖模型,維運成本大幅降低 (當然,對散戶來說還是太大)

中國公司 Zai 也同步推出較輕量的版本,GLM 4.5 Air,雖說輕量但也有 110B


缺點:

  • 若用官方服務,需小心隱私問題 (畢竟是中國公司)
  • 訓練資料可能有「不平衡」問題,意即中文易跳成簡體字
  • 其他不清楚,沒親自試用過


美團長貓 LongCat

560B 參數量,比 DeepSeek 小一點

亮點是動態 MoE,不像以往固定活化的專家數量

LongCat 會根據任務需求,決定啟動多少專家,更有效率

綜合能力與各家大模型接近,在「工具使用」、「聽從指示」上表現最佳

# 比較對象為 DeepSeek V3、GPT 4.1、Claude Sonnet 4、Gemini2.5 Flash 等

有趣的是,美團是中國團購平台,業務有外賣、餐食評論平台、團購...

社群宣傳時說:「中國連食物外送平台,都練出語言模型了」,還 MIT 開源

至於實際能力,還有待第三方評測




接下來要介紹的是小語言模型 (Small Language Model, SLM)

一般常聽到大語言模型 (Large Language Model, LLM),不過小而精鍊的模型,運用資源更有效率、也更容易在邊緣裝置使用

我比較想叫他們 Little Language Model,感覺比較可愛、而且縮寫也會是 LLM




第一位是 - Falcon

這可能相對冷門,Falcon 是阿聯酋的科技創新研究院 (Technology Innovation Institute, TII)所研製

他們和 Mistral 走相似路線,對訓練資料精煉再精煉,推出的模型也多在 10B 以下 (僅有個 40B 的例外)

而且主打「用網路上公開的資料,就能練出強大模型」

Falcon 問世時打敗 Llama 2,並用 Apache 2.0 開源釋出

Falcon 3 則是在推出時,勝過其他相近尺寸模型。在同參數量的條件下,表現是 Mistral、Llama 3、Qwen、Gemma 2 (Google 的小模型)的幾乎兩倍好

Falcon H1 系列同樣維持低參數量、高表現,讓 TII 驕傲地宣傳「比起『大』模型,『聰明』模型更有用」

缺點:

  • Falcon 3 的授權條款是 Falcon 3 TII,和 H1 一樣使用上有限制
  • Falcon 系列輸出容易變成簡體中文,畢竟網路上的資料比例不同




Google 除了閉源的 Gemini,也有開源模型 Gemma 喔!

Gemma 2 和 Gemma 3 都在 27B 以下,旨在提供邊緣裝置 (e.g. 筆電)使用

儘管 Google 發揮洗榜功力,在 benchmark 取得不錯成績,Gemma 2 一問世就被壓在地上摩擦,表現不值一提

尤其這東西用 Gemma 條款授權,限制很多。模型爛又綁手綁腳,誰要用它?

Gemma 3 擺脫陰霾,在不少測評中表現良好,算是社群愛用模型之一

而且相較 Gemini,對言論的敏感度較低,不會隨便 ban 人

缺點:Gemma license 和真開源相比,多了些限制




微軟也有開源模型,Phi 家族~

向來排斥開源的微軟,相較素來擁抱開源的 Google,居然用 MIT 授權 (真開源,要商用也隨便你)丟出模型,驚不驚喜,意不意外呀?

Phi 3 可說是試水溫,3B 到 14B 都有 (Phi 2 以前的過氣了,假裝不存在)

Phi 3.5 開始興盛,小至 3.8B、大到 40B,測評表現良好、推論效率高

Phi 4 是 14.7B 的模型,各項測評表現佳,甚至贏過 Gemini 1.5 flash (那可是好幾倍大的 LLM)

而且微軟也微調了很多版本,有多模態的會推理的多專家的...,供直接取用

要選用中小語言模型時, 不妨考慮 Phi 系列

缺點:

  • 束縛較嚴重,正常問題也有機會拒答,政治正確也比較明顯 (微軟練的,不意外。終究還是保守派)
  • 進階設定和常見模型不同,要微調會比較麻煩



開源 AI 大本營,Hugging Face 自練模型

各方武林高手開源自身模型時,通常會放到 Hugging Face 平台上,其可謂 AI 界的 Github (簡單說就是免錢的線上市集,可以上去隨意下載模型)

這家公司也有自己練小語言模型 - SmolLM2SmolLM3

相較前述,SmolVLM 非常迷你,最小的 135M,最大的也才 1.7B,真的可在筆電、手機上運作 (官方有示範過),且以 Apache 2.0 釋出,想拿來幹嘛就幹嘛

衍生的 SmolVLM 則是支援視覺的版本 (能看圖)

Hugging Face 團隊測試了幾個建模策略,讓模型在小尺度下獲得驚人視覺能力,成為時下標竿 (State-Of-The-Art, SOTA),詳情可見官方論文

缺點:

  • 主要支援英文,據說不會說中、日、韓文

實測其實沒問題,而且模型會用中文說「我看得懂中文,但無法用中文回答」,有點可愛

  • 困難任務無法勝任,畢竟模型太小




LFM2 邊緣運算用模型

Liquid Foundation Model, LFM,是 LiquidAI 推出、目標為邊緣裝置的模型,因此模型最大 1.2B、最小才 350M

# 邊緣裝置指邊緣人的設備筆電、手機、穿戴裝置等算力較低的設備

LiquidAI 是一群史丹佛學者成立的公司,模型有許多新穎設計,訓練更快、所需資源更少,而且 benchmark 表現良好

因為從設計架構就不同,不只在 GPU 上,連 NPU 甚至 CPU 都能運行 LFM 模型

還有 MoE 版,使用很省資源

缺點:

  • 用 LFM open Licence 授權,對商用有些限制
  • 模型小,雖可支援工具使用、代理人功能,但不建議用於「知識密度高」、「寫程式」等工作




IBM 也參戰,堅若磐石的小模型~

為什麼說堅若磐石?

因為他們將模型命名為「Granite」,就是花崗岩;訓練資料集叫「GneissWeb」,Gneiss 是花崗片麻岩 (花崗岩變質而成,國小自然教過喔!)

Granite 家族多在 3B-7B,算是很輕量的模型

儘管參數少,官方仍進一步採 MoE架構,讓效能提升、延遲降低、硬體需求更寬鬆

Granite 3.3 有不少下游模型,例如視覺專長、語音處理、RAG、agent...

Granite 4.0 通過預覽階段、正式推出,基本上就是前一代的能力提升


你猜怎麼樣?

Granite 系列在開發者間,可是好評浪潮不斷,雖然模型小、又拆分成不同專家,卻有傑出的表現,很值得一試

缺點:

  • 我沒找到免費的 API,畢竟模型小,官方大概覺得開發者可自行部署
  • 官方微調版本眾多,需記得依任務選最適合的
  • 知名度莫名低,討論時常得先介紹




Stability AI 除了製圖模型,也有推出語言模型

有玩 AI 生圖的人應該不陌生,這家公司就是大名鼎鼎 Stable Diffusion 的發行者

生圖模型要有好的任務描述,才能生出高品質的圖。鑑於一般人語言能力有限,決定圖片水準的瓶頸往往是文字輸入,所以可藉文字編碼器 (encoder)做輔助

就是怕你國文不好,他找人幫你修咒語的意思

StableLM 最小 1.6B 最大 12B、程式助手 Stable-code 則是 3B

據說他們也是為了在受限硬體中使用,才會特地練小模型


為什麼講得很簡略?

因為測評表現普通,甚少人使用,相關資料也頗缺乏

而且語言模型和 Stable Diffusion 一樣,用 Stability AI 條款授權,並非傳統開源,使用上有些限制

總之就是不推薦,又何必多言呢?




讀到這,你可能會好奇,Grok 呢?

不是聽說 xAI 有開源模型嗎?

嗯,Grok 只有第一代開源,後面都閉源

他們的 CEO 曾批評 OpenAI 不 Open,結果自己還不是一樣...

為什麼沒介紹 Grok?

因為那東西太糟糕了,grok-1 參數量 314B (DeepSeek 一半大),但各種 Benchmark 表現平平,還輸給 1/3 大小的 Claude 2

說開源,結果各種文件、說明卻付之闕如,大概只是做個形式

吹噓和外宣可以,但實際上沒人要用 (模型大 → 使用成本高;又貴又笨,還是放垃圾場裡就好)

後續開源的 grok-2,被認為只是跟 OpenAI GPT OSS 系列對做

鑑於先前表現,恕我不再追 grok 系列






介紹告一段落,內容如有誤歡迎糾正

篇首的 Hackmd 筆記會隨時間更新,此方格文可能就...比較慢一點 (別罵那麼難聽嘛!結構化的表格比較好調整啊!)


感謝收看







留言
avatar-img
留言分享你的想法!
avatar-img
移幣的沙龍
6會員
31內容數
技術文章、文學抒發、低門檻創意實作教學,想收到通知歡迎加入
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
TypeScript是一種由Microsoft開發和維護的開源編程語言。它是JavaScript的超集,主要擴展了JavaScript的語法,增加了靜態類型檢查和其他特性,使得開發大型應用程序更為方便和可靠。
Thumbnail
TypeScript是一種由Microsoft開發和維護的開源編程語言。它是JavaScript的超集,主要擴展了JavaScript的語法,增加了靜態類型檢查和其他特性,使得開發大型應用程序更為方便和可靠。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
JavaScript是一種具有動態型別、弱型別、原型繼承等特性的高級腳本語言,應用範圍廣泛,包括前端開發、後端開發、移動應用等。它被各種公司和開源社區廣泛使用。學習JavaScript需要掌握ECMAScript標準、異步編程、模塊系統等知識。
Thumbnail
JavaScript是一種具有動態型別、弱型別、原型繼承等特性的高級腳本語言,應用範圍廣泛,包括前端開發、後端開發、移動應用等。它被各種公司和開源社區廣泛使用。學習JavaScript需要掌握ECMAScript標準、異步編程、模塊系統等知識。
Thumbnail
C#是一種開源、跨平台、面向對象的編程語言,具有類型安全、泛型、模式匹配等特性。廣泛應用於桌面和Web應用程序、遊戲開發、移動應用、雲計算等領域。全球數十萬家公司像微軟、Unity Technologies、Stack Overflow等使用C#支持其業務。C#還提供豐富的進階學習資源和主題。
Thumbnail
C#是一種開源、跨平台、面向對象的編程語言,具有類型安全、泛型、模式匹配等特性。廣泛應用於桌面和Web應用程序、遊戲開發、移動應用、雲計算等領域。全球數十萬家公司像微軟、Unity Technologies、Stack Overflow等使用C#支持其業務。C#還提供豐富的進階學習資源和主題。
Thumbnail
學習如何使用Python連接MongoDB進行憑證監控,包括建立MongoDB docker-compose、連接MongoDB、讀取yaml並寫入MongoDB、傳入env以及domain寫入MongoDB、讀取MongoDB、修改MongoDB、刪除MongoDB。
Thumbnail
學習如何使用Python連接MongoDB進行憑證監控,包括建立MongoDB docker-compose、連接MongoDB、讀取yaml並寫入MongoDB、傳入env以及domain寫入MongoDB、讀取MongoDB、修改MongoDB、刪除MongoDB。
Thumbnail
軟體系統的發展歷程大多相似,首重解決基本需求、提供操作介面,進而提升安全性、擴充功能、優化操作。
Thumbnail
軟體系統的發展歷程大多相似,首重解決基本需求、提供操作介面,進而提升安全性、擴充功能、優化操作。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News