人工智能領域一直存在著開源與閉源之爭。OpenAI 的 Sam Altman 曾狂言開發者永遠無法複製出 ChatGPT。然而,最新研究表明,開源 AI 正在迎頭趕上,甚至超越閉源巨頭。
研究人員提出的混合代理模型(Mixture-of-Agents,簡稱 MoA)在 AlpacaEval 2.0 基準測試中取得了 65.1% 的得分,遠超 GPT-4 Omni 的 57.5%。這一突破性成果意味著 AI 的未來將更加民主化、透明和協作。
MoA 模型的核心理念是利用多個開源大語言模型(LLM)的協作能力。每個 LLM 被視為一個「代理」,它們在多個層次中協同工作,不斷優化輸出結果。這種方法的獨特之處在於:
1. 協作性:即使單個 LLM 能力有限,多個 LLM 協作後能產生更優質的回應。
2. 層次結構:MoA 模型由多層組成,每層包含多個 LLM 代理。上一層的輸出會傳遞給下一層的所有代理,實現信息的充分利用。
3. 角色分工:MoA 中的 LLM 可分為「提議者」和「聚合者」兩種角色。提議者負責生成多樣化的回應,而聚合者則負責整合這些回應,產生高質量的最終輸出。
4. 靈活性:MoA 無需對 LLM 架構進行內部修改,可以靈活使用任何現有的 LLM。
實現 MoA 模型的關鍵在於巧妙設計提示詞。研究者使用了「聚合與綜合」(Aggregate-and-Synthesize)提示詞來整合不同代理的輸出。這種方法避免了傳統混合專家(Mixture-of-Experts,MoE)模型中複雜的網絡架構和訓練過程。
在實際應用中,研究者構建了一個包含 Qwen1.5、WizardLM、LLaMA-3 等開源模型的 MoA 系統。他們還設計了兩個變體:使用 GPT-4o 作為最終聚合器的 MoA w/ GPT-4o,以及注重降低成本的 MoA-Lite。
這些模型在多個基準測試中都表現出色。在 AlpacaEval 2.0 測試中,MoA 模型比 GPT-4o 高出 8.2 個百分點,甚至經濟型的 MoA-Lite 也領先 1.8 個百分點。在 MT-Bench 和 FLASK 等其他測試中,MoA 模型同樣展現了強勁的競爭力。
MoA 的成功不僅體現在性能上,還體現在成本效益方面。研究表明,MoA-Lite 在達到與 GPT-4o 相當的回應質量的同時,所需成本更低。這意味著開源 AI 不僅在技術上追趕上了閉源巨頭,在經濟性上也具有優勢。
例如,在 FLASK 測試中,MoA 的輸出往往較為冗長,在簡潔性方面略遜一籌。這提醒我們,即使是強大的協作模型,也需要在不同方面尋求平衡。
MoA 模型的成功為 AI 領域帶來了新的思路。它證明了開源社區的集體智慧可以與商業巨頭相抗衡,甚至超越。這種方法不僅降低了 AI 開發的門檻,還為未來的 AI 系統提供了新的設計範式。
對於開發者和研究者來說,MoA 模型的出現無疑是一個激動人心的機遇。它不僅為我們提供了一種新的思考 AI 系統的方式,還為開源 AI 社區注入了新的活力。我們期待看到更多基於 MoA 的創新,以及它們如何重塑 AI 的未來格局。
參考資料:
1. ArXiv 論文:[Mixture-of-Agents Enhances Large Language Model Capabilities](https://arxiv.org/abs/2307.03056)
2. AlpacaEval 評估框架:[https://github.com/tatsu-lab/alpaca_eval](https://github.com/tatsu-lab/alpaca_eval)
3. MT-Bench 測試:[https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)