語言模型大評比 (不專業選型)

更新於 發佈於 閱讀時間約 15 分鐘

English version:

英文版在 hackmd


想做 Agent、使用語言模型時,是否有過「我該選哪個」的疑問?

本篇整理各家開源模型,讓選擇更明智

# 開源簡單說就是,路人都能拿到該模型


語言模型們




本篇不討論技術細節,僅針對「技術選型」 (Technology Selection)整理模型

介紹對象為常見、開源的語言模型,閉源模型不會多加著墨

# 精煉版請參閱文首 hackmd (內含表格),下文會用白ㄧㄝˋ話ㄩˊ、但較不結構化的方式,介紹各語言模型





正文開始:

當然是由最火熱的 DeepSeek 打頭陣囉!

DeepSeek-R1DeepSeek-V3,兩者參數量都很驚人 (685B,超巨大)、皆可吞吐 128k 的 token,不過 R1 歷經「事後調教」,推理能力和表現更強

他們用 MoE (Mixture of Experts)混合專家模型架構,也就是回答時僅啟動部分「專家」,而非活化整個巨大模型 (單問題只用 37B 參數應付,是總大小的 1/20,很省吧!)

DeepSeek 訓練過程用了很多聰明方法,節省大量運算資源,詳情可見官方論文

需注意的是,R1 用 MIT 授權開源、V3 則用 DeepSeek 條款授權。前者真開源,後者限制較多

DeepSeek 這操作挺神奇的,一般都是開源次等貨、保留旗艦款,他們卻把王牌送給大家用,加速學界良性競爭

市場也因此白熱化,掀起開源模型熱潮。許多強大模型紛紛開源,甚至一度促成「開源勝過閉源」的盛況

官方也把 R1 蒸餾在幾個在阿里巴巴的 Qwen 模型上,一樣都能推理

不過 DeepSeek 也存在一些缺點:

  • 中文容易跳成簡體,在地化不便
  • 對特定政治、歷史內容屏蔽,相關領域使用上可能受限

Perplexity 有拿 R1 特別微調了一隻 r1-1776,移除對歷史、政治內容的管制,有興趣可試試



再來介紹加拿大公司 Cohere 的模型

Cohere 主打專長、特化模型,比起通用模型 (如 GPT),為特定領域打造專屬模型更省資源、理論上也能表現更好

Aya-101,是他們早年釋出的 LLM,號稱支援 101 種語言

Command 系列 (Command A、Command R...),是為科學、工業打造的模型,小從 8B 大到 104B 的都有 (小矮人到大巨人)

Command 家族支援 23 種語言以上、能吞 128k 字符量、而且「對話內容幾乎無限制」

一般對話外,犯罪、傷害、成人內容等一概「不需越獄、誘導」,直接問他就會直接答,適合聊色

本文章為中立介紹,未鼓吹各位亂搞,自己跟模型聊爽就好,別說是我教的

特別的是,Coherer 用 CC-BY-NC-4.0 開源這群模型。CC 通常被用在藝文創作,拿來授權語言模型實屬罕見 (後來 Nvidia 也把 OpenMath nemotron 用 CC 開源,不知是否受 Cohere 啟發)

Command 系列的缺點是延遲:提問後要等許久,才會得到回答




緊接著,是阿里巴巴的 Qwen (通義千問)模型

Qwen 系列多數都是 Apache 2.0 開源的 (i.e. 真開源),而且從很早就這麼做,因此很不少社群模型 (業餘開發者微調的)是基於 Qwen 練成

基本款可能表現普通,但後代千變萬化,有很會寫程式的會推理的 (QwQ,此非表情符號,他家模型就叫這名字)...

神奇的是,Qwen 對歷史、政治議題似乎很開放,就像一般模型一樣。天安門可以直接問,不會遭拒

我一直很好奇,對岸居然允許這種事發生!?


Qwen 的缺點是:

  • 有些模型是 Qwen 授權條款釋出,不是全無限制。使用前要看清楚,以免侵權
  • 推理模型 QwQ 偶爾會失控輸出亂碼,而且對政治、歷史議題有回避性
  • 就算有引導,仍易跳成簡體字,應與訓練資料不平衡有關
  • 和常見模型如 GPT、Gemini 一樣,會遵循政治正確、道德規範應答 (i.e. 想聊色的請改道,謝謝)




再來是我很喜歡的一家公司 - Mistral

相信有在關注開源的人,應該對 Mistral 不陌生

這家法國公司擅長清整資料,用高品質的資料練出精實模型,模型普遍較小卻有大模型的能力,常常勝過他牌兩倍大模型的表現,而且多數都開源,因此也是社群模型的常見基石

Mistral 7B 勝過同期 Meta 的 Llama 2 14B 模型,46B 的 MoE (多專家模型)則匹敵 Llama 3 70B

Mistral 系列同樣不回答有害內容,且模型普遍偏小 (50B 以下)

因為小模型推論較省資源,API 價格相對親民

需注意的是,多數 Mistral 模型雖然是 Apache 2.0 開源,但有部分是 MNPL、MRL 授權,不能商用,記得先看清楚

有趣的一點是,Mistral 很愛用諧音哏命名模型!

  • 視覺模型叫 Pixtral (畫素 Pixel + mistral)
  • 小模型叫 Ministral (Mini + mistral)
  • 多專家 (MoE)模型叫 Mixtral (Mixture + mistral)

他們還有用 Mamba 架構練出程式助手 Codestral,適合處理長文 (正好適合讀寫程式碼)

這麼愛用諧音哏,都懷疑 Mistral 雇用台灣人專職取名

Mistral 模型的缺點:

  • 內容變化有限,畢竟模型小
  • 防堵有害內容,偶爾會擋過頭 (像 GPT 那樣)
  • 下載前必須同意隱私條款,足夠擋退隱私社群 (例如我)




接著就是 Llama 囉!

Llama 系列可說是第一批開源的語言模型,當初 Meta 酸了 OpenAI 一陣,並轟轟烈烈推出 Llama,是開源模型的先驅

Llama 3 系列從 1B 到 406B 都有,包辦了各棲位。雖然表現不如專練特定尺寸模型的公司,但在各大小都有不錯的成績 (i.e. 不是第一名,但至少是前十名)

所以很多社群開發者、第三方公司都微調 Llama 成客製化模型,例如聯發科的 Breeze、輝達的 Nemotron (Nvidia 挺行的,把 Llama 調教成推理模型)

Llama 4 在 2025 第一季火熱釋出,為多專家模型 (MoE)、吞吐量驚人、天生支援多模態 (multi-modal,能看圖片)、號稱表現優異,堪稱開源陣營的強心針

成員有:

  • Maverick (獨行俠):
    • 共 400B,有128 個專家,每次啟動 17B (約為 DeepSeep 2/3 大小)
    • 需 ≈788GB 空間才存得下
    • 一次能看 1M 的 token 數 (i.e. 能看比 Claude Sonnet 五倍長的文章)
  • Scout (偵查兵):
    • 共 109B,有 16 位專家,每次啟動 17B
    • 需 ≈210GB 空間才存得下
    • 能讀 10M 的輸入,是 Maverick、GPT 的十倍,適合處理長文本
  • Reasoning (推理模型)

號稱會推出,之後就沒下文了

  • Behemoth (地獄巨獸貝西摩斯)

一直在預覽階段,不知何時才會釋出

多虧 MoE 架構,Llama 4 的推論 (inference)成本很低,所以第三方 API 通常價格親民


諷刺的是,Llama 4 在社群測評翻車了,許多 benchmark (語言模型的考試)都吊車尾

Meta 被懷疑先給模型看過特定評量的答案,否則模型才這點程度,怎麼有辦法在官方測試中表現亮眼,但 Meta 否認這項指控

Llama 4 introduction in English:

缺點:Llama 系列是用 Llama license 授權釋出,是有不少限制的半開源

  • 微調模型需冠名 Llama
  • 微調後的授權也要附上 Llama license
  • 大規模商用有限制
  • ...






接下來要介紹的是小語言模型 (Small Language Model, SLM)

一般常聽到大語言模型 (Large Language Model, LLM),不過小而精鍊的模型,運用資源更有效率、也更容易在邊緣裝置使用

我比較想叫他們 Little Language Model,感覺比較可愛、而且縮寫也會是 LLM





第一位是 - Falcon

這可能相對冷門,Falcon 是阿聯酋的科技創新研究院 (Technology Innovation Institute, TII)所研製

他們和 Mistral 走相似路線,對訓練資料精煉再精煉,推出的模型也多在 10B 以下 (僅有個 40B 的例外)

而且主打「用網路上公開的資料,就能練出強大模型」

Falcon 問世時打敗 Llama 2,並用 Apache 2.0 開源釋出

Falcon 3 則是在推出時,勝過其他相近尺寸模型。在同參數量的條件下,表現是 Mistral、Llama 3、Qwen、Gemma 2 (Google 的小模型)的幾乎兩倍好

缺點:

  • Falcon 3 的授權條款是 Falcon 3 TII,使用上有限制
  • Falcon 系列輸出容易變成簡體中文,畢竟網路上的資料比例不同




Google 除了閉源的 Gemini,也有開源模型 Gemma 喔!

Gemma 2 和 Gemma 3 都在 27B 以下,旨在提供邊緣裝置 (e.g. 筆電)使用

儘管 Google 發揮洗榜功力,在 benchmark 取得不錯成績,Gemma 2 一問世就被壓在地上摩擦,表現不值一提

尤其這東西用 Gemma 條款授權,限制很多。模型爛又綁手綁腳,誰要用它?

Gemma 3 擺脫陰霾,在不少測評中表現良好,算是社群愛用模型之一

而且相較 Gemini,對言論的敏感度較低,不會隨便 ban 人

缺點:Gemma license 和真開源相比,多了些限制




微軟也有開源模型,Phi 家族~

向來排斥開源的微軟,相較素來擁抱開源的 Google,居然用 MIT 授權 (真開源,要商用也隨便你)丟出模型,驚不驚喜,意不意外呀?

Phi 3 可說是試水溫,3B 到 14B 都有 (Phi 2 以前的過氣了,假裝不存在)

Phi 3.5 開始興盛,小至 3.8B、大到 40B,測評表現良好、推論效率高

Phi 4 是 14.7B 的模型,各項測評表現佳,甚至贏過 Gemini 1.5 flash (那可是好幾倍大的 LLM)

而且微軟也微調了很多版本,有多模態的會推理的多專家的...,供直接取用

所以要選用中小語言模型時,非常推薦 Phi 系列!

缺點:

  • 束縛較嚴重,正常問題也有機會拒答,政治正確也比較明顯 (微軟練的,不意外。終究還是保守派)
  • 進階設定和常見模型不同,要微調會比較麻煩




開源 AI 大本營,Hugging Face 自練模型

各方武林高手開源自身模型時,通常會放到 Hugging Face 平台上,其可謂 AI 界的 Github (簡單說就是免錢的線上市集,可以上去隨意下載模型)

這家公司也有自己練小語言模型 - SmolLM2

相較前述,SmolVLM 非常迷你,最小的 135M,最大的也才 1.7B,真的可在筆電、手機上運作 (官方有示範過),且以 Apache 2.0 釋出,想拿來幹嘛就幹嘛

衍生的 SmolVLM 則是支援視覺的版本 (能看圖)

Hugging Face 團隊測試了幾個建模策略,讓模型在小尺度下獲得驚人視覺能力,成為時下標竿 (State-Of-The-Art, SOTA),詳情可見官方論文

缺點:

  • 主要支援英文,據說不會說中、日、韓文

實測其實沒問題,而且模型會用中文說「我看得懂中文,但無法用中文回答」,有點可愛

  • 困難任務無法勝任,畢竟模型太小




Stability AI 除了製圖模型,也有推出語言模型

有玩 AI 生圖的人應該不陌生,這家公司就是大名鼎鼎 Stable Diffusion 的發行者

生圖模型要有好的任務描述,才能生出高品質的圖。鑑於一般人語言能力有限,決定圖片水準的瓶頸往往是文字輸入,所以可藉文字編碼器 (encoder)做輔助

就是怕你國文不好,他找人幫你修咒語的意思

StableLM 最小 1.6B 最大 12B、程式助手 Stable-code 則是 3B

據說他們也是為了在受限硬體中使用,才會特地練小模型


為什麼講得很簡略?

因為測評表現普通,甚少人使用,相關資料也頗缺乏

而且語言模型和 Stable Diffusion 一樣,用 Stability AI 條款授權,並非傳統開源,使用上有些限制

總之就是不推薦,又何必多言呢?




讀到這,你可能會好奇,Grok 呢?

不是聽說 xAI 有開源模型嗎?

嗯,Grok 只有第一代開源,後面都閉源

他們的 CEO 曾批評 OpenAI 不 Open,結果自己還不是一樣...

為什麼沒介紹 Grok?

因為那東西太糟糕了,grok-1 參數量 314B (DeepSeek 一半大),但各種 Benchmark 表現平平,還輸給 1/3 大小的 Claude 2

說開源,結果各種文件、說明卻付之闕如,大概只是做個形式

吹噓和外宣可以,但實際上沒人要用 (模型大 → 使用成本高;又貴又笨,還是放垃圾場裡就好)







介紹告一段落,內容如有誤歡迎糾正

篇首的 Hackmd 筆記會隨時間更新,此方格文可能就...比較慢一點 (別罵那麼難聽嘛!結構化的表格比較好調整啊!)


感謝收看







留言
avatar-img
留言分享你的想法!
avatar-img
移幣的沙龍
3會員
8內容數
技術文章、文學抒發、低門檻創意實作教學,想收到通知歡迎加入
你可能也想看
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
TypeScript是一種由Microsoft開發和維護的開源編程語言。它是JavaScript的超集,主要擴展了JavaScript的語法,增加了靜態類型檢查和其他特性,使得開發大型應用程序更為方便和可靠。
Thumbnail
TypeScript是一種由Microsoft開發和維護的開源編程語言。它是JavaScript的超集,主要擴展了JavaScript的語法,增加了靜態類型檢查和其他特性,使得開發大型應用程序更為方便和可靠。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
JavaScript是一種具有動態型別、弱型別、原型繼承等特性的高級腳本語言,應用範圍廣泛,包括前端開發、後端開發、移動應用等。它被各種公司和開源社區廣泛使用。學習JavaScript需要掌握ECMAScript標準、異步編程、模塊系統等知識。
Thumbnail
JavaScript是一種具有動態型別、弱型別、原型繼承等特性的高級腳本語言,應用範圍廣泛,包括前端開發、後端開發、移動應用等。它被各種公司和開源社區廣泛使用。學習JavaScript需要掌握ECMAScript標準、異步編程、模塊系統等知識。
Thumbnail
C#是一種開源、跨平台、面向對象的編程語言,具有類型安全、泛型、模式匹配等特性。廣泛應用於桌面和Web應用程序、遊戲開發、移動應用、雲計算等領域。全球數十萬家公司像微軟、Unity Technologies、Stack Overflow等使用C#支持其業務。C#還提供豐富的進階學習資源和主題。
Thumbnail
C#是一種開源、跨平台、面向對象的編程語言,具有類型安全、泛型、模式匹配等特性。廣泛應用於桌面和Web應用程序、遊戲開發、移動應用、雲計算等領域。全球數十萬家公司像微軟、Unity Technologies、Stack Overflow等使用C#支持其業務。C#還提供豐富的進階學習資源和主題。
Thumbnail
學習如何使用Python連接MongoDB進行憑證監控,包括建立MongoDB docker-compose、連接MongoDB、讀取yaml並寫入MongoDB、傳入env以及domain寫入MongoDB、讀取MongoDB、修改MongoDB、刪除MongoDB。
Thumbnail
學習如何使用Python連接MongoDB進行憑證監控,包括建立MongoDB docker-compose、連接MongoDB、讀取yaml並寫入MongoDB、傳入env以及domain寫入MongoDB、讀取MongoDB、修改MongoDB、刪除MongoDB。
Thumbnail
軟體系統的發展歷程大多相似,首重解決基本需求、提供操作介面,進而提升安全性、擴充功能、優化操作。
Thumbnail
軟體系統的發展歷程大多相似,首重解決基本需求、提供操作介面,進而提升安全性、擴充功能、優化操作。
Thumbnail
當我們在撰寫一套系統的時候, 總是會提供一個介面讓使用者來觸發功能模組並回傳使用者所需的請求, 而傳統的安裝包模式總是太侷限, 需要個別主機獨立安裝, 相當繁瑣, 但隨著時代的演進與互聯網的崛起, 大部分的工作都可以藉由網頁端、裝置端來觸發, 而伺服端則是負責接收指令、運算與回傳結果, 雲端
Thumbnail
當我們在撰寫一套系統的時候, 總是會提供一個介面讓使用者來觸發功能模組並回傳使用者所需的請求, 而傳統的安裝包模式總是太侷限, 需要個別主機獨立安裝, 相當繁瑣, 但隨著時代的演進與互聯網的崛起, 大部分的工作都可以藉由網頁端、裝置端來觸發, 而伺服端則是負責接收指令、運算與回傳結果, 雲端
Thumbnail
有趣的是,Model 其實沒什麼嚴格的定義,所以每個人對 Model 的解讀也不盡相同,有人覺得資料怎麼儲存屬於 Model 的一部份 (受 ORM 工具的影響),有人覺得工作流程 (workflow) 是 Model 的一部份,我個人也有自己的想法,而且隨專案的規模和特性,也不是總是一樣的。
Thumbnail
有趣的是,Model 其實沒什麼嚴格的定義,所以每個人對 Model 的解讀也不盡相同,有人覺得資料怎麼儲存屬於 Model 的一部份 (受 ORM 工具的影響),有人覺得工作流程 (workflow) 是 Model 的一部份,我個人也有自己的想法,而且隨專案的規模和特性,也不是總是一樣的。
Thumbnail
關於程式語言的學習,只要掌握住幾個基本特性要熟悉幾種程式語言也不困難,這三個基本特性就是…
Thumbnail
關於程式語言的學習,只要掌握住幾個基本特性要熟悉幾種程式語言也不困難,這三個基本特性就是…
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News