從 GPT-4o 到 MoA:揭秘開源 AI 如何實現彎道超車

閱讀時間約 4 分鐘

人工智能領域一直存在著開源與閉源之爭。OpenAI 的 Sam Altman 曾狂言開發者永遠無法複製出 ChatGPT。然而,最新研究表明,開源 AI 正在迎頭趕上,甚至超越閉源巨頭。

研究人員提出的混合代理模型(Mixture-of-Agents,簡稱 MoA)在 AlpacaEval 2.0 基準測試中取得了 65.1% 的得分,遠超 GPT-4 Omni 的 57.5%。這一突破性成果意味著 AI 的未來將更加民主化、透明和協作。

MoA 模型的核心理念是利用多個開源大語言模型(LLM)的協作能力。每個 LLM 被視為一個「代理」,它們在多個層次中協同工作,不斷優化輸出結果。這種方法的獨特之處在於:


1. 協作性:即使單個 LLM 能力有限,多個 LLM 協作後能產生更優質的回應。

2. 層次結構:MoA 模型由多層組成,每層包含多個 LLM 代理。上一層的輸出會傳遞給下一層的所有代理,實現信息的充分利用。

3. 角色分工:MoA 中的 LLM 可分為「提議者」和「聚合者」兩種角色。提議者負責生成多樣化的回應,而聚合者則負責整合這些回應,產生高質量的最終輸出。

4. 靈活性:MoA 無需對 LLM 架構進行內部修改,可以靈活使用任何現有的 LLM。


實現 MoA 模型的關鍵在於巧妙設計提示詞。研究者使用了「聚合與綜合」(Aggregate-and-Synthesize)提示詞來整合不同代理的輸出。這種方法避免了傳統混合專家(Mixture-of-Experts,MoE)模型中複雜的網絡架構和訓練過程。

在實際應用中,研究者構建了一個包含 Qwen1.5、WizardLM、LLaMA-3 等開源模型的 MoA 系統。他們還設計了兩個變體:使用 GPT-4o 作為最終聚合器的 MoA w/ GPT-4o,以及注重降低成本的 MoA-Lite。

這些模型在多個基準測試中都表現出色。在 AlpacaEval 2.0 測試中,MoA 模型比 GPT-4o 高出 8.2 個百分點,甚至經濟型的 MoA-Lite 也領先 1.8 個百分點。在 MT-Bench 和 FLASK 等其他測試中,MoA 模型同樣展現了強勁的競爭力。

MoA 的成功不僅體現在性能上,還體現在成本效益方面。研究表明,MoA-Lite 在達到與 GPT-4o 相當的回應質量的同時,所需成本更低。這意味著開源 AI 不僅在技術上追趕上了閉源巨頭,在經濟性上也具有優勢。


然而,MoA 模型也存在一些局限性。


例如,在 FLASK 測試中,MoA 的輸出往往較為冗長,在簡潔性方面略遜一籌。這提醒我們,即使是強大的協作模型,也需要在不同方面尋求平衡。

MoA 模型的成功為 AI 領域帶來了新的思路。它證明了開源社區的集體智慧可以與商業巨頭相抗衡,甚至超越。這種方法不僅降低了 AI 開發的門檻,還為未來的 AI 系統提供了新的設計範式。

對於開發者和研究者來說,MoA 模型的出現無疑是一個激動人心的機遇。它不僅為我們提供了一種新的思考 AI 系統的方式,還為開源 AI 社區注入了新的活力。我們期待看到更多基於 MoA 的創新,以及它們如何重塑 AI 的未來格局。


參考資料:

1. ArXiv 論文:[Mixture-of-Agents Enhances Large Language Model Capabilities](https://arxiv.org/abs/2307.03056)

2. AlpacaEval 評估框架:[https://github.com/tatsu-lab/alpaca_eval](https://github.com/tatsu-lab/alpaca_eval)

3. MT-Bench 測試:[https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)

avatar-img
0會員
18內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
小罗LA的沙龍 的其他內容
對AI充滿興趣但沒有計算機科學背景?這篇文章提供了一個為期50天的學習計畫,幫助你從零基礎成長為AI/ML專家。透過實際的學習步驟和推薦資源,無需專業學位也能掌握AI,關鍵在於持續實踐和自主學習。這是一段充滿挑戰與成長的學習之旅,伴隨著瞭解其原理與應用。祝你學習愉快!
在這篇文章中,我們將介紹七款功能強大的Mac應用程式,幫助用戶提高工作效率。從隨手筆記的SideNotes到專業錄影的Screen Studio,這些工具能夠滿足不同需求,讓你的工作流程更加順暢。無論是遠程桌面、筆記管理還是文件壓縮,每款應用都有其獨特的優勢,且使用簡便,適合各種用戶。
對AI充滿興趣但沒有計算機科學背景?這篇文章提供了一個為期50天的學習計畫,幫助你從零基礎成長為AI/ML專家。透過實際的學習步驟和推薦資源,無需專業學位也能掌握AI,關鍵在於持續實踐和自主學習。這是一段充滿挑戰與成長的學習之旅,伴隨著瞭解其原理與應用。祝你學習愉快!
在這篇文章中,我們將介紹七款功能強大的Mac應用程式,幫助用戶提高工作效率。從隨手筆記的SideNotes到專業錄影的Screen Studio,這些工具能夠滿足不同需求,讓你的工作流程更加順暢。無論是遠程桌面、筆記管理還是文件壓縮,每款應用都有其獨特的優勢,且使用簡便,適合各種用戶。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
人工智能(AI)是當今最熱門的話題之一,它正在改變人類的生活方式和 工作方式。踏入2023年,隨著 OpenAl 推出 ChatGPT 震驚全球,以 AI技術的應用程序不斷湧現,顛覆了 我們過去對科技的認知。 今天Only Two 翁立兔分享了這篇,我真的覺得蠻好的 【一天一千字,進化每一次】不
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
人工智能(AI)是當今最熱門的話題之一,它正在改變人類的生活方式和 工作方式。踏入2023年,隨著 OpenAl 推出 ChatGPT 震驚全球,以 AI技術的應用程序不斷湧現,顛覆了 我們過去對科技的認知。 今天Only Two 翁立兔分享了這篇,我真的覺得蠻好的 【一天一千字,進化每一次】不
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,