Meta推出開源模型 Llama 4 Maverick 與 Scout:Meta 的 AI 秘密武器是什麼?

更新於 發佈於 閱讀時間約 7 分鐘

Meta 在 2025 年 4 月 6 日正式推出了 Llama 4 系列模型,其中首批亮相的 Llama 4 Maverick 和 Llama 4 Scout 憑藉混合專家(Mixture of Experts, MoE)架構與原生多模態能力,迅速引起科技界的關注。

raw-image

The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation


一、Llama 4 Maverick 、 Scout 、 Behemoth等模型亮相

Llama 4 Scout:可處理極長上下文的效率模型

Llama 4 Scout 是 Meta 針對高效能與長上下文處理需求打造的輕量化多模態模型,其主要特色包括:

  • 參數與架構:擁有 170 億個活躍參數,配備 16 個專家模組,總參數達 1090 億。採用 MoE 架構,僅啟用部分參數以提升運算效率。
  • 上下文窗口:領先其他模型的 1000 萬 token 上下文長度,從 Llama 3 的 128K 大幅躍升,適合處理超長文檔、程式碼庫或多文檔摘要。
  • 硬體需求:透過量化技術,可運行於單一NVIDIA H100 GPU,降低部署門檻。
  • 性能表現:在圖像、編碼、推理和長上下文基準測試中,超越 Gemma 3、Gemini 2.0 Flash-Lite 與 Mistral 3.1。
  • 適用場景:Scout 特別適合需要深度上下文分析的應用,例如研究人員處理大規模數據集、開發者解析龐大程式碼,或企業進行多文檔總結。


Llama 4 Maverick:全能型多模態模型

Llama 4 Maverick 則定位為通用型助理,為了與 GPT-4o 等模型競爭,提供優異的性能與成本效益,其主要特色包括:

  • 參數與架構:同樣具備 170 億活躍參數,但配備 128 個專家模組,總參數高達 4000 億。MoE 架構結合交替密集層與專家層,進一步優化推理效率。
  • 上下文窗口:具備百萬級 token 容量,足以應對多數複雜任務。
  • 性能表現:在編碼、推理、多語言、長上下文與圖像基準測試中,擊敗 GPT-4o 與 Gemini 2.0 Flash,並與 DeepSeek v3 旗鼓相當(活躍參數僅為後者一半)。其聊天版本在 LMArena 獲得 1417 的 ELO 分數,位居開源模型前列。
  • 成本效益:相較 Llama 3.3 70B,提供更高品質且價格更低,成為通用 LLM 的性價比首選。
  • 多模態能力:原生支援文本與圖像處理,適用於精確圖像理解與創意寫作。
  • 適用場景:Maverick 是聊天機器人、創意內容生成與多模態應用的理想選擇,目前將陸續整合至 Meta 的 WhatsApp、Messenger 等平台。


Llama 4 Behemoth:未來的模型巨獸

除了 Scout 與 Maverick,Meta 還預告了 Llama 4 系列中的「教師模型」——Llama 4 Behemoth。這款仍在訓練中的超級模型被 Meta 描述為「迄今為止最強大的模型」,以下是其主要特色:

  • 參數規模:擁有 2880 億個活躍參數與近 2 兆個總參數,規模遠超 Scout 與 Maverick,是名副其實的模型巨獸。
  • 卓越性能:在多項 STEM 基準測試中,Llama 4 Behemoth 超越 GPT-4.5、Claude Sonnet 3.7 與 Gemini 2.0 Pro,尤其在數學、多語言和圖像處理上展現頂尖非推理能力。
  • MoE 架構:與系列其他模型一致,Behemoth 採用多模態混合專家設計,確保高效與專業兼得。
  • 教師角色:雖然尚未公開發布,Behemoth 已用於蒸餾 Llama 4 Maverick,顯著提升後者的終端任務品質。
  • 未來展望:目前 Behemoth 仍在訓練中,Meta 表示將在未來分享更多技術細節,令人期待其未來推出。


二、什麼是 MoE(混合專家)技術?

MoE 的基本原理

混合專家(Mixture of Experts, MoE)是一種機器學習架構,用於提升模型效率與專業性。其核心概念是將大模型拆分為多個小型「專家」(sub-models),每個專家專精於特定領域或任務,並透過一個「閘控網路」(gating network)動態分配輸入數據。

  • 專家模組:這些小型神經網路各自負責不同類型的任務,例如語言生成、數學推理或圖像識別。
  • 閘控網路:負責分析輸入並將其路由至最適合的專家,通常僅啟用少數專家(例如 Maverick模型中 的 128 個專家中僅用 2 個)。
  • 稀疏性:不像傳統密集模型每次使用全部參數,MoE 僅啟動部分參數,大幅降低運算成本。

以 Llama 4 Maverick 為例,其 4000 億總參數中,每次推理僅啟用 170 億參數,閘控網路會根據任務需求選擇共享專家與特定路由專家協同工作。


MoE 的優勢與影響

  • 提升效率:稀疏啟用減少運算負擔,使大模型在有限硬體上運行成為可能。例如,Scout 在單個 GPU 上即可高效運作。
  • 專業化增強:專家分工明確,Maverick 的多模態能力得益於專精文本與圖像的專家協作。
  • 可擴展性:MoE 允許模型規模無限擴張(如 Llama 4 Behemoth 的 2 兆參數),不需成比例增加運算資源。
  • 靈活性:動態適應不同輸入,提升模型在多任務場景中的表現。
  • 訓練複雜性:閘控網路與專家需同步優化,若路由失誤,可能導致專家利用不足。
  • 推理延遲:閘控網路仍可能增加微小延遲,需仰賴現代硬體優化。
raw-image

The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation


三、Meta 為何選擇開源?

開源的主要動機

Meta 將 Llama 4 Scout 與 Maverick 開源並非偶然,而是基於以下策略考量:

  • 驅動創新:Meta 相信開放性是 AI 進步的關鍵。透過公開模型,開發者可基於 Llama 4 打造創新型應用,推動技術生態發展。
  • 惠及多方:開發者免費使用尖端技術,降低進入門檻,Meta公司從社群回饋中加速模型迭代。
  • 強化 Llama 生態系:Scout 與 Maverick 作為生態系核心,吸引更多參與者加入,擴大影響力。


預期影響

  • 加速產品開發:開發者可利用 Llama 4 打造AI智慧化應用,如個人化聊天機器人或多模態工具。
  • 提升使用者體驗:Meta 已逐漸將 Llama 4 整合至 WhatsApp、Messenger 等平台,未來將能看到更多不同平台實現更加AI智慧化的互動。
  • 推動技術進步:社群參與將催生新應用場景,進一步提升 AI 技術水平。
  • 支持企業創新:低成本高性能的模型為企業提供競爭優勢,尤其在資料分析與客戶服務領域。


Llama 4 系列展現了 Meta 在 AI 領域的雄心:Scout 以 1000 萬 token 上下文稱霸長文處理,Maverick 憑藉多模態與高性能挑戰 GPT-4o,Behemoth 則先行預告未來的 AI模型巨獸。MOE 技術的引入讓這些模型兼顧效率與專業性,而 Meta 的開源策略為全球的開發者與企業開啟無限可能。

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡


留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
26會員
97內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/04/23
介紹TTS模型(文字轉語音)的運作原理與應用,比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製,幫助您選擇最適合的TTS解決方案。
Thumbnail
2025/04/23
介紹TTS模型(文字轉語音)的運作原理與應用,比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製,幫助您選擇最適合的TTS解決方案。
Thumbnail
2025/04/19
隨著 AI 的快速發展,大型語言模型的性能不斷提升,但顯卡等硬體需求往往讓一般用戶望而卻步。Google 於 2025 年 4 月 18 日發布的 Gemma 3 系列量化模型,透過 Quantization-Aware Training(QAT) 技術,成功將頂尖 AI 性能帶入消費級硬體,如 N
Thumbnail
2025/04/19
隨著 AI 的快速發展,大型語言模型的性能不斷提升,但顯卡等硬體需求往往讓一般用戶望而卻步。Google 於 2025 年 4 月 18 日發布的 Gemma 3 系列量化模型,透過 Quantization-Aware Training(QAT) 技術,成功將頂尖 AI 性能帶入消費級硬體,如 N
Thumbnail
2025/04/16
xAI 的 Grok 3 於 2025 年 4 月陸續推出 Grok Workspaces 和 Grok Studio ,各自針對不同的使用需求,來幫助用戶提升工作效率與創意實現。本文將深入介紹這兩個功能的特色、差異,以及最適合的使用情境,幫助你選擇合適的工具
Thumbnail
2025/04/16
xAI 的 Grok 3 於 2025 年 4 月陸續推出 Grok Workspaces 和 Grok Studio ,各自針對不同的使用需求,來幫助用戶提升工作效率與創意實現。本文將深入介紹這兩個功能的特色、差異,以及最適合的使用情境,幫助你選擇合適的工具
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
國陸軍在近期於紐約州德拉姆堡演習期間,採用 Ghost Robotic 推出的機器狗 Vision 60 安裝步槍,成為步兵在前線反制無人機的新幫手。 烏俄戰爭讓無人機成為改變戰爭樣貌的主要平台之一,而如何反制成為目前全球各國積極研究的項目,美國陸軍除了開發雷射、微波和機砲等中大型反制系統外
Thumbnail
國陸軍在近期於紐約州德拉姆堡演習期間,採用 Ghost Robotic 推出的機器狗 Vision 60 安裝步槍,成為步兵在前線反制無人機的新幫手。 烏俄戰爭讓無人機成為改變戰爭樣貌的主要平台之一,而如何反制成為目前全球各國積極研究的項目,美國陸軍除了開發雷射、微波和機砲等中大型反制系統外
Thumbnail
人工智能的年代已經來臨。作為人類的我們應何去何從?與其與機械人比拼競爭,不如與它們合作共存。在市場學上推崇「藍海策略」(Blue Ocean Strategy),意指跨越現有競爭的邊界,拓展未存在的領域,創造新的價值與需求。
Thumbnail
人工智能的年代已經來臨。作為人類的我們應何去何從?與其與機械人比拼競爭,不如與它們合作共存。在市場學上推崇「藍海策略」(Blue Ocean Strategy),意指跨越現有競爭的邊界,拓展未存在的領域,創造新的價值與需求。
Thumbnail
本文介紹了特斯拉自動駕駛硬體版本的演進,包括 HW3.0、HW4.0 硬體版本在臺灣的抵達和消費者的選擇,硬體與軟體的協同發展,各版本晶片的技術規格及未來發展趨勢等。文章內容深入淺出,對於對特斯拉自動駕駛有興趣的讀者具有參考價值。
Thumbnail
本文介紹了特斯拉自動駕駛硬體版本的演進,包括 HW3.0、HW4.0 硬體版本在臺灣的抵達和消費者的選擇,硬體與軟體的協同發展,各版本晶片的技術規格及未來發展趨勢等。文章內容深入淺出,對於對特斯拉自動駕駛有興趣的讀者具有參考價值。
Thumbnail
科技通靈:養成世上首位人工智慧指導靈「度母-神威式」 Tech-psychic: Incubating World's First AI Spirit Guide ‘TARA - SHIKI DEVA’
Thumbnail
科技通靈:養成世上首位人工智慧指導靈「度母-神威式」 Tech-psychic: Incubating World's First AI Spirit Guide ‘TARA - SHIKI DEVA’
Thumbnail
COMPUTEX 2024迎來 9 大科技巨頭參與,包括 NVIDIA、Intel 、AMD等。大廠面對 AI 的發展,積極推出高效能處理器產品,並展望 AI 未來的應用潛力。而未來巢的生成式AI對話機器人GeniAuto_X也希望協助企業提升生產力與自動化工作流程,進行數位轉型,並提出應用情境。
Thumbnail
COMPUTEX 2024迎來 9 大科技巨頭參與,包括 NVIDIA、Intel 、AMD等。大廠面對 AI 的發展,積極推出高效能處理器產品,並展望 AI 未來的應用潛力。而未來巢的生成式AI對話機器人GeniAuto_X也希望協助企業提升生產力與自動化工作流程,進行數位轉型,並提出應用情境。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
文、圖/Meta Meta 將 Meta Quest 作業系統開放給第三方硬體製造商,讓開發者共同建構更龐大的生態系 華碩(ASUS)已開始在 Meta Horizon 作業系統的新裝置上進行開發,旗下玩家共和國 Republic of Gamers(ROG)將發展全新的高效能電競頭戴式裝置
Thumbnail
文、圖/Meta Meta 將 Meta Quest 作業系統開放給第三方硬體製造商,讓開發者共同建構更龐大的生態系 華碩(ASUS)已開始在 Meta Horizon 作業系統的新裝置上進行開發,旗下玩家共和國 Republic of Gamers(ROG)將發展全新的高效能電競頭戴式裝置
Thumbnail
小型語言模型(small language model,SLM)比起大型語言模型可望提供更低成本、更具效率的處理能力,未來適用於筆電和手機等裝置。英特爾日前宣布,整個 CPU 和 GPU 產品組合支援微軟開發的 Phi-3 模型。 英特爾成為首批產品陣容支援小型語言模型的硬體製造商之一
Thumbnail
小型語言模型(small language model,SLM)比起大型語言模型可望提供更低成本、更具效率的處理能力,未來適用於筆電和手機等裝置。英特爾日前宣布,整個 CPU 和 GPU 產品組合支援微軟開發的 Phi-3 模型。 英特爾成為首批產品陣容支援小型語言模型的硬體製造商之一
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News