從 GPT-4o 到 MoA:揭秘開源 AI 如何實現彎道超車

閱讀時間約 4 分鐘

人工智能領域一直存在著開源與閉源之爭。OpenAI 的 Sam Altman 曾狂言開發者永遠無法複製出 ChatGPT。然而,最新研究表明,開源 AI 正在迎頭趕上,甚至超越閉源巨頭。

研究人員提出的混合代理模型(Mixture-of-Agents,簡稱 MoA)在 AlpacaEval 2.0 基準測試中取得了 65.1% 的得分,遠超 GPT-4 Omni 的 57.5%。這一突破性成果意味著 AI 的未來將更加民主化、透明和協作。

MoA 模型的核心理念是利用多個開源大語言模型(LLM)的協作能力。每個 LLM 被視為一個「代理」,它們在多個層次中協同工作,不斷優化輸出結果。這種方法的獨特之處在於:


1. 協作性:即使單個 LLM 能力有限,多個 LLM 協作後能產生更優質的回應。

2. 層次結構:MoA 模型由多層組成,每層包含多個 LLM 代理。上一層的輸出會傳遞給下一層的所有代理,實現信息的充分利用。

3. 角色分工:MoA 中的 LLM 可分為「提議者」和「聚合者」兩種角色。提議者負責生成多樣化的回應,而聚合者則負責整合這些回應,產生高質量的最終輸出。

4. 靈活性:MoA 無需對 LLM 架構進行內部修改,可以靈活使用任何現有的 LLM。


實現 MoA 模型的關鍵在於巧妙設計提示詞。研究者使用了「聚合與綜合」(Aggregate-and-Synthesize)提示詞來整合不同代理的輸出。這種方法避免了傳統混合專家(Mixture-of-Experts,MoE)模型中複雜的網絡架構和訓練過程。

在實際應用中,研究者構建了一個包含 Qwen1.5、WizardLM、LLaMA-3 等開源模型的 MoA 系統。他們還設計了兩個變體:使用 GPT-4o 作為最終聚合器的 MoA w/ GPT-4o,以及注重降低成本的 MoA-Lite。

這些模型在多個基準測試中都表現出色。在 AlpacaEval 2.0 測試中,MoA 模型比 GPT-4o 高出 8.2 個百分點,甚至經濟型的 MoA-Lite 也領先 1.8 個百分點。在 MT-Bench 和 FLASK 等其他測試中,MoA 模型同樣展現了強勁的競爭力。

MoA 的成功不僅體現在性能上,還體現在成本效益方面。研究表明,MoA-Lite 在達到與 GPT-4o 相當的回應質量的同時,所需成本更低。這意味著開源 AI 不僅在技術上追趕上了閉源巨頭,在經濟性上也具有優勢。


然而,MoA 模型也存在一些局限性。


例如,在 FLASK 測試中,MoA 的輸出往往較為冗長,在簡潔性方面略遜一籌。這提醒我們,即使是強大的協作模型,也需要在不同方面尋求平衡。

MoA 模型的成功為 AI 領域帶來了新的思路。它證明了開源社區的集體智慧可以與商業巨頭相抗衡,甚至超越。這種方法不僅降低了 AI 開發的門檻,還為未來的 AI 系統提供了新的設計範式。

對於開發者和研究者來說,MoA 模型的出現無疑是一個激動人心的機遇。它不僅為我們提供了一種新的思考 AI 系統的方式,還為開源 AI 社區注入了新的活力。我們期待看到更多基於 MoA 的創新,以及它們如何重塑 AI 的未來格局。


參考資料:

1. ArXiv 論文:[Mixture-of-Agents Enhances Large Language Model Capabilities](https://arxiv.org/abs/2307.03056)

2. AlpacaEval 評估框架:[https://github.com/tatsu-lab/alpaca_eval](https://github.com/tatsu-lab/alpaca_eval)

3. MT-Bench 測試:[https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)

0會員
18內容數
留言0
查看全部
發表第一個留言支持創作者!
小罗LA的沙龍 的其他內容
對AI充滿興趣但沒有計算機科學背景?這篇文章提供了一個為期50天的學習計畫,幫助你從零基礎成長為AI/ML專家。透過實際的學習步驟和推薦資源,無需專業學位也能掌握AI,關鍵在於持續實踐和自主學習。這是一段充滿挑戰與成長的學習之旅,伴隨著瞭解其原理與應用。祝你學習愉快!
在這篇文章中,我們將介紹七款功能強大的Mac應用程式,幫助用戶提高工作效率。從隨手筆記的SideNotes到專業錄影的Screen Studio,這些工具能夠滿足不同需求,讓你的工作流程更加順暢。無論是遠程桌面、筆記管理還是文件壓縮,每款應用都有其獨特的優勢,且使用簡便,適合各種用戶。
對AI充滿興趣但沒有計算機科學背景?這篇文章提供了一個為期50天的學習計畫,幫助你從零基礎成長為AI/ML專家。透過實際的學習步驟和推薦資源,無需專業學位也能掌握AI,關鍵在於持續實踐和自主學習。這是一段充滿挑戰與成長的學習之旅,伴隨著瞭解其原理與應用。祝你學習愉快!
在這篇文章中,我們將介紹七款功能強大的Mac應用程式,幫助用戶提高工作效率。從隨手筆記的SideNotes到專業錄影的Screen Studio,這些工具能夠滿足不同需求,讓你的工作流程更加順暢。無論是遠程桌面、筆記管理還是文件壓縮,每款應用都有其獨特的優勢,且使用簡便,適合各種用戶。
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
人工智能(AI)是當今最熱門的話題之一,它正在改變人類的生活方式和 工作方式。踏入2023年,隨著 OpenAl 推出 ChatGPT 震驚全球,以 AI技術的應用程序不斷湧現,顛覆了 我們過去對科技的認知。 今天Only Two 翁立兔分享了這篇,我真的覺得蠻好的 【一天一千字,進化每一次】不
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
人工智能(AI)是當今最熱門的話題之一,它正在改變人類的生活方式和 工作方式。踏入2023年,隨著 OpenAl 推出 ChatGPT 震驚全球,以 AI技術的應用程序不斷湧現,顛覆了 我們過去對科技的認知。 今天Only Two 翁立兔分享了這篇,我真的覺得蠻好的 【一天一千字,進化每一次】不
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,