摘要
Meta 推出了 Llama 4 系列模型,包括 Llama 4 Scout 和 Llama 4 Maverick,這兩款開源多模態模型採用混合專家(MoE)架構,並在效能和成本效益上超越前代及競爭對手。Llama 4 Scout 擁有 170 億活躍參數和 10M 上下文窗口,適合單一 GPU 部署;Llama 4 Maverick 則在推理和編碼任務上表現優異,媲美更大規模的模型。此外,Meta 預覽了仍在訓練中的 Llama 4 Behemoth,這是一款 2880 億參數的頂級模型,專注於 STEM 領域的表現。這些模型強調開放創新,並整合了安全措施與偏見緩解技術。
關鍵點
- Llama 4 Scout:170 億活躍參數、16 位專家,支援 10M 上下文窗口,適合單一 H100 GPU 部署,在多模態任務中表現卓越。
- Llama 4 Maverick:170 億活躍參數、128 位專家,在推理、編碼和圖像理解上超越 GPT-4o 和 Gemini 2.0,成本效益高。
- Llama 4 Behemoth:2880 億參數的教師模型,專注於 STEM 基準測試,未來將支援更小模型的蒸餾訓練。
- 混合專家架構(MoE):僅激活部分參數,提升訓練和推理效率,同時保持模型效能。
- 多模態整合:早期融合技術統一處理文本和視覺數據,增強跨模態理解能力。
- 安全措施:包含預訓練數據過濾、系統級防護工具(如 Llama Guard),以及自動化紅隊測試(GOAT)。
- 偏見改進:Llama 4 在政治和社會議題上的回應偏見顯著降低,拒絕回答的比例從 7% 降至 2%。