English version:
英文版在 hackmd
想做 Agent、使用語言模型時,是否有過「我該選哪個」的疑問?
本篇整理各家開源模型,讓選擇更明智
# 開源簡單說就是,路人都能拿到該模型
語言模型們
本篇不討論技術細節,僅針對「技術選型」 (Technology Selection)整理模型
介紹對象為常見、開源的語言模型,閉源模型不會多加著墨
# 精煉版請參閱文首 hackmd (內含表格),下文會用白ㄧㄝˋ話ㄩˊ、但較不結構化的方式,介紹各語言模型
正文開始:
當然是由最火熱的 DeepSeek 打頭陣囉!
DeepSeek-R1、DeepSeek-V3,兩者參數量都很驚人 (685B,超巨大)、皆可吞吐 128k 的 token,不過 R1 歷經「事後調教」,推理能力和表現更強
他們用 MoE (Mixture of Experts)混合專家模型架構,也就是回答時僅啟動部分「專家」,而非活化整個巨大模型 (單問題只用 37B 參數應付,是總大小的 1/20,很省吧!)
DeepSeek 訓練過程用了很多聰明方法,節省大量運算資源,詳情可見官方論文
需注意的是,R1 用 MIT 授權開源、V3 則用 DeepSeek 條款授權。前者真開源,後者限制較多
DeepSeek 這操作挺神奇的,一般都是開源次等貨、保留旗艦款,他們卻把王牌送給大家用,加速學界良性競爭
市場也因此白熱化,掀起開源模型熱潮。許多強大模型紛紛開源,甚至一度促成「開源勝過閉源」的盛況
官方也把 R1 蒸餾在幾個在阿里巴巴的 Qwen 模型上,一樣都能推理
不過 DeepSeek 也存在一些缺點:
- 中文容易跳成簡體,在地化不便
- 對特定政治、歷史內容屏蔽,相關領域使用上可能受限
Perplexity 有拿 R1 特別微調了一隻 r1-1776,移除對歷史、政治內容的管制,有興趣可試試
再來介紹加拿大公司 Cohere 的模型
Cohere 主打專長、特化模型,比起通用模型 (如 GPT),為特定領域打造專屬模型更省資源、理論上也能表現更好
Aya-101,是他們早年釋出的 LLM,號稱支援 101 種語言
Command 系列 (Command A、Command R...),是為科學、工業打造的模型,小從 8B 大到 104B 的都有 (小矮人到大巨人)
Command 家族支援 23 種語言以上、能吞 128k 字符量、而且「對話內容幾乎無限制」
一般對話外,犯罪、傷害、成人內容等一概「不需越獄、誘導」,直接問他就會直接答,適合聊色
本文章為中立介紹,未鼓吹各位亂搞,自己跟模型聊爽就好,別說是我教的
特別的是,Coherer 用 CC-BY-NC-4.0 開源這群模型。CC 通常被用在藝文創作,拿來授權語言模型實屬罕見 (後來 Nvidia 也把 OpenMath nemotron 用 CC 開源,不知是否受 Cohere 啟發)
Command 系列的缺點是延遲:提問後要等許久,才會得到回答
緊接著,是阿里巴巴的 Qwen (通義千問)模型
Qwen 系列多數都是 Apache 2.0 開源的 (i.e. 真開源),而且從很早就這麼做,因此很不少社群模型 (業餘開發者微調的)是基於 Qwen 練成
基本款可能表現普通,但後代千變萬化,有很會寫程式的、會推理的 (QwQ,此非表情符號,他家模型就叫這名字)...
神奇的是,Qwen 對歷史、政治議題似乎很開放,就像一般模型一樣。天安門可以直接問,不會遭拒
我一直很好奇,對岸居然允許這種事發生!?
Qwen 的缺點是:
- 有些模型是 Qwen 授權條款釋出,不是全無限制。使用前要看清楚,以免侵權
- 推理模型 QwQ 偶爾會失控輸出亂碼,而且對政治、歷史議題有回避性
- 就算有引導,仍易跳成簡體字,應與訓練資料不平衡有關
- 和常見模型如 GPT、Gemini 一樣,會遵循政治正確、道德規範應答 (i.e. 想聊色的請改道,謝謝)
再來是我很喜歡的一家公司 - Mistral
相信有在關注開源的人,應該對 Mistral 不陌生
這家法國公司擅長清整資料,用高品質的資料練出精實模型,模型普遍較小卻有大模型的能力,常常勝過他牌兩倍大模型的表現,而且多數都開源,因此也是社群模型的常見基石
Mistral 7B 勝過同期 Meta 的 Llama 2 14B 模型,46B 的 MoE (多專家模型)則匹敵 Llama 3 70B
Mistral 系列同樣不回答有害內容,且模型普遍偏小 (50B 以下)
因為小模型推論較省資源,API 價格相對親民
需注意的是,多數 Mistral 模型雖然是 Apache 2.0 開源,但有部分是 MNPL、MRL 授權,不能商用,記得先看清楚
有趣的一點是,Mistral 很愛用諧音哏命名模型!
- 視覺模型叫 Pixtral (畫素 Pixel + mistral)
- 小模型叫 Ministral (Mini + mistral)
- 多專家 (MoE)模型叫 Mixtral (Mixture + mistral)
他們還有用 Mamba 架構練出程式助手 Codestral,適合處理長文 (正好適合讀寫程式碼)
這麼愛用諧音哏,都懷疑 Mistral 雇用台灣人專職取名
Mistral 模型的缺點:
- 內容變化有限,畢竟模型小
- 防堵有害內容,偶爾會擋過頭 (像 GPT 那樣)
- 下載前必須同意隱私條款,足夠擋退隱私社群 (例如我)
接著就是 Llama 囉!
Llama 系列可說是第一批開源的語言模型,當初 Meta 酸了 OpenAI 一陣,並轟轟烈烈推出 Llama,是開源模型的先驅
Llama 3 系列從 1B 到 406B 都有,包辦了各棲位。雖然表現不如專練特定尺寸模型的公司,但在各大小都有不錯的成績 (i.e. 不是第一名,但至少是前十名)
所以很多社群開發者、第三方公司都微調 Llama 成客製化模型,例如聯發科的 Breeze、輝達的 Nemotron (Nvidia 挺行的,把 Llama 調教成推理模型)
Llama 4 在 2025 第一季火熱釋出,為多專家模型 (MoE)、吞吐量驚人、天生支援多模態 (multi-modal,能看圖片)、號稱表現優異,堪稱開源陣營的強心針
成員有:
- Maverick (獨行俠):
- 共 400B,有128 個專家,每次啟動 17B (約為 DeepSeep 2/3 大小)
- 需 ≈788GB 空間才存得下
- 一次能看 1M 的 token 數 (i.e. 能看比 Claude Sonnet 五倍長的文章)
- Scout (偵查兵):
- 共 109B,有 16 位專家,每次啟動 17B
- 需 ≈210GB 空間才存得下
- 能讀 10M 的輸入,是 Maverick、GPT 的十倍,適合處理長文本
- Reasoning (推理模型)
號稱會推出,之後就沒下文了
- Behemoth (
地獄巨獸貝西摩斯)
一直在預覽階段,不知何時才會釋出
多虧 MoE 架構,Llama 4 的推論 (inference)成本很低,所以第三方 API 通常價格親民
諷刺的是,Llama 4 在社群測評翻車了,許多 benchmark (語言模型的考試)都吊車尾
Meta 被懷疑先給模型看過特定評量的答案,否則模型才這點程度,怎麼有辦法在官方測試中表現亮眼,但 Meta 否認這項指控
Llama 4 introduction in English:
缺點:Llama 系列是用 Llama license 授權釋出,是有不少限制的半開源
- 微調模型需冠名 Llama
- 微調後的授權也要附上 Llama license
- 大規模商用有限制
- ...
接下來要介紹的是小語言模型 (Small Language Model, SLM)
一般常聽到大語言模型 (Large Language Model, LLM),不過小而精鍊的模型,運用資源更有效率、也更容易在邊緣裝置使用
我比較想叫他們 Little Language Model,感覺比較可愛、而且縮寫也會是 LLM
第一位是 - Falcon
這可能相對冷門,Falcon 是阿聯酋的科技創新研究院 (Technology Innovation Institute, TII)所研製
他們和 Mistral 走相似路線,對訓練資料精煉再精煉,推出的模型也多在 10B 以下 (僅有個 40B 的例外)
而且主打「用網路上公開的資料,就能練出強大模型」
Falcon 問世時打敗 Llama 2,並用 Apache 2.0 開源釋出
Falcon 3 則是在推出時,勝過其他相近尺寸模型。在同參數量的條件下,表現是 Mistral、Llama 3、Qwen、Gemma 2 (Google 的小模型)的幾乎兩倍好
缺點:
- Falcon 3 的授權條款是 Falcon 3 TII,使用上有限制
- Falcon 系列輸出容易變成簡體中文,畢竟網路上的資料比例不同
Google 除了閉源的 Gemini,也有開源模型 Gemma 喔!
Gemma 2 和 Gemma 3 都在 27B 以下,旨在提供邊緣裝置 (e.g. 筆電)使用
儘管 Google 發揮洗榜功力,在 benchmark 取得不錯成績,Gemma 2 一問世就被壓在地上摩擦,表現不值一提
尤其這東西用 Gemma 條款授權,限制很多。模型爛又綁手綁腳,誰要用它?
Gemma 3 擺脫陰霾,在不少測評中表現良好,算是社群愛用模型之一
而且相較 Gemini,對言論的敏感度較低,不會隨便 ban 人
缺點:Gemma license 和真開源相比,多了些限制
微軟也有開源模型,Phi 家族~
向來排斥開源的微軟,相較素來擁抱開源的 Google,居然用 MIT 授權 (真開源,要商用也隨便你)丟出模型,驚不驚喜,意不意外呀?
Phi 3 可說是試水溫,3B 到 14B 都有 (Phi 2 以前的過氣了,假裝不存在)
Phi 3.5 開始興盛,小至 3.8B、大到 40B,測評表現良好、推論效率高
Phi 4 是 14.7B 的模型,各項測評表現佳,甚至贏過 Gemini 1.5 flash (那可是好幾倍大的 LLM)
而且微軟也微調了很多版本,有多模態的、會推理的、多專家的...,供直接取用
所以要選用中小語言模型時,非常推薦 Phi 系列!
缺點:
- 束縛較嚴重,正常問題也有機會拒答,政治正確也比較明顯 (微軟練的,不意外。終究還是保守派)
- 進階設定和常見模型不同,要微調會比較麻煩
開源 AI 大本營,Hugging Face 自練模型
各方武林高手開源自身模型時,通常會放到 Hugging Face 平台上,其可謂 AI 界的 Github (簡單說就是免錢的線上市集,可以上去隨意下載模型)
這家公司也有自己練小語言模型 - SmolLM2
相較前述,SmolVLM 非常迷你,最小的 135M,最大的也才 1.7B,真的可在筆電、手機上運作 (官方有示範過),且以 Apache 2.0 釋出,想拿來幹嘛就幹嘛
衍生的 SmolVLM 則是支援視覺的版本 (能看圖)
Hugging Face 團隊測試了幾個建模策略,讓模型在小尺度下獲得驚人視覺能力,成為時下標竿 (State-Of-The-Art, SOTA),詳情可見官方論文
缺點:
- 主要支援英文,據說不會說中、日、韓文
實測其實沒問題,而且模型會用中文說「我看得懂中文,但無法用中文回答」,有點可愛
- 困難任務無法勝任,畢竟模型太小
Stability AI 除了製圖模型,也有推出語言模型
有玩 AI 生圖的人應該不陌生,這家公司就是大名鼎鼎 Stable Diffusion 的發行者
生圖模型要有好的任務描述,才能生出高品質的圖。鑑於一般人語言能力有限,決定圖片水準的瓶頸往往是文字輸入,所以可藉文字編碼器 (encoder)做輔助
就是怕你國文不好,他找人幫你修咒語的意思
StableLM 最小 1.6B 最大 12B、程式助手 Stable-code 則是 3B
據說他們也是為了在受限硬體中使用,才會特地練小模型
為什麼講得很簡略?
因為測評表現普通,甚少人使用,相關資料也頗缺乏
而且語言模型和 Stable Diffusion 一樣,用 Stability AI 條款授權,並非傳統開源,使用上有些限制
總之就是不推薦,又何必多言呢?
讀到這,你可能會好奇,Grok 呢?
不是聽說 xAI 有開源模型嗎?
嗯,Grok 只有第一代開源,後面都閉源
他們的 CEO 曾批評 OpenAI 不 Open,結果自己還不是一樣...
為什麼沒介紹 Grok?
因為那東西太糟糕了,grok-1 參數量 314B (DeepSeek 一半大),但各種 Benchmark 表現平平,還輸給 1/3 大小的 Claude 2
說開源,結果各種文件、說明卻付之闕如,大概只是做個形式
吹噓和外宣可以,但實際上沒人要用 (模型大 → 使用成本高;又貴又笨,還是放垃圾場裡就好)
介紹告一段落,內容如有誤歡迎糾正
篇首的 Hackmd 筆記會隨時間更新,此方格文可能就...比較慢一點 (別罵那麼難聽嘛!結構化的表格比較好調整啊!)
感謝收看