【AI聊天機器人大PK】 ── 目前頂尖的AI聊天機器人究竟是誰呢?

更新於 發佈於 閱讀時間約 2 分鐘
raw-image

▋ 有一個相當知名的AI聊天機器人排行榜, 「Chatbot Arena Leaderboard」 這個排行榜是由大型模型系統組織(Large Model Systems Organization)所建立的評估平台。

社群成員以匿名方式對兩個不同的AI模型進行提問, 然後進行投票,選出他們最喜歡的回答。 最終,根據Elo評分系統(一種在象棋和其他競技遊戲中常見的評分系統)進行排名。

這個排行榜總共納入了超過50,000個用戶的投票。

■ 目前Chatbot Arena排行前五名分別是

  1. GPT-4
  2. Claude-1
  3. Claude-instant-1
  4. Claude-2
  5. GPT-3.5-turbo

此外,該網站還提供了另外兩種評估方式的排行榜。

▋ MT-Bench 這是一套測試AI模型是否能像人類一樣理解問題,並解決57個不同領域的問題。

這些問題涵蓋了數學、歷史、法律、電腦科學等多個領域。

■ 基於MT-Bench的AI聊天機器人排行

  1. GPT-4
  2. Claude-2
  3. GPT-3.5-turbo
  4. Claude-1
  5. Claude-instant-1

▋ MMLU(5-shot) 這也是一項評估AI模型能力的研究,但與前面的測試方式略有不同,這次是讓AI充當裁判評價其他模型。

研究發現,像GPT-4這樣強大的語言模型,與我們人類的偏好和判斷相似度高達80%,而且成本更低。

■ 基於MMLU(5-shot)的AI聊天機器人排行

  1. GPT-4
  2. Claude-2
  3. Claude-1
  4. Claude-instant-1
  5. GPT-3.5-turbo

▋ 結論 在這三種評分標準下,GPT-4持續穩坐第一名的寶座, 而第2到5名的模型互相交替。

前五名中,GPT與Claude之間的競爭尤其激烈,這也是我的主觀體驗所感受到的。 目前,其他模型尚未能勝過這兩家,但Llama似乎有逐漸追趕上來的趨勢, 或許未來前五名會出現新的競爭者。

📚Reference

留言
avatar-img
留言分享你的想法!
avatar-img
Alan的開發者天地
19會員
83內容數
golang
Alan的開發者天地的其他內容
2024/09/22
👨‍💻簡介 在工作上如果有多組 AWS 環境,會需要快速切換進行操作,這篇簡單記錄一下如何快速方便的透過 aws-cli 切換帳號 💡解決辦法 使用 --profile 參數 在每次執行指令後面添加 --profile,指定要使用的 profile aws s3 ls --profi
Thumbnail
2024/09/22
👨‍💻簡介 在工作上如果有多組 AWS 環境,會需要快速切換進行操作,這篇簡單記錄一下如何快速方便的透過 aws-cli 切換帳號 💡解決辦法 使用 --profile 參數 在每次執行指令後面添加 --profile,指定要使用的 profile aws s3 ls --profi
Thumbnail
2024/09/22
在這篇文章中,我們將介紹如何設置和使用 Amazon MSK。本文涵蓋了從創建叢集、配置安全設定、到使用 AWS Secrets Manager 管理機密的完整過程。特別關注配置 SASL/SCRAM 身分驗證和開放外部存取的設定。幫助使用者快速上手 MSK,並確保安全與高可用性。
Thumbnail
2024/09/22
在這篇文章中,我們將介紹如何設置和使用 Amazon MSK。本文涵蓋了從創建叢集、配置安全設定、到使用 AWS Secrets Manager 管理機密的完整過程。特別關注配置 SASL/SCRAM 身分驗證和開放外部存取的設定。幫助使用者快速上手 MSK,並確保安全與高可用性。
Thumbnail
2024/09/15
本文介紹如何使用 MongoDB 的命令行工具 Mongorestore 將先前備份的資料還原到資料庫中。Mongorestore 支援資料庫的整體恢復、特定集合的恢復,以及從遠端伺服器進行恢復等功能。無論是初學者還是有經驗的使用者,都能夠快速掌握如何使用 Mongorestore 工具。
Thumbnail
2024/09/15
本文介紹如何使用 MongoDB 的命令行工具 Mongorestore 將先前備份的資料還原到資料庫中。Mongorestore 支援資料庫的整體恢復、特定集合的恢復,以及從遠端伺服器進行恢復等功能。無論是初學者還是有經驗的使用者,都能夠快速掌握如何使用 Mongorestore 工具。
Thumbnail
看更多
你可能也想看
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
基本介紹及主要的功能。 淺層基礎原理解釋。 優缺點及問題分析。 ChatGPT,這個名字在過去幾個月內迅速成為科技界的一個熱門話題。它是由OpenAI發布的一款聊天機器人,自從去年11月推出以來,它以驚人的速度突破了1億的訪問量,不僅成為了成長速度最快的消費者應用程式,更在各種專業和學術
Thumbnail
基本介紹及主要的功能。 淺層基礎原理解釋。 優缺點及問題分析。 ChatGPT,這個名字在過去幾個月內迅速成為科技界的一個熱門話題。它是由OpenAI發布的一款聊天機器人,自從去年11月推出以來,它以驚人的速度突破了1億的訪問量,不僅成為了成長速度最快的消費者應用程式,更在各種專業和學術
Thumbnail
Claude跟ChatGPT究竟有哪些差異?先講我目前的結論:如果你需要AI處理的是文字工作,那麼Claude目前看起來些微落敗於GPT-4,但遠優於GPT-3.5,而且目前Claude還不用收費。 Claude使用起來的確大部分如他所說:整體給人的感受很正面、並且記憶力相當不錯。
Thumbnail
Claude跟ChatGPT究竟有哪些差異?先講我目前的結論:如果你需要AI處理的是文字工作,那麼Claude目前看起來些微落敗於GPT-4,但遠優於GPT-3.5,而且目前Claude還不用收費。 Claude使用起來的確大部分如他所說:整體給人的感受很正面、並且記憶力相當不錯。
Thumbnail
今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。 但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。
Thumbnail
今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。 但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。
Thumbnail
推出了其第二代AI聊天機器人版本,並在美國和英國開放公眾測試 要點: 1,最多可概括75,000字,與ChatGPT的3,000字限制相比,是一個巨大的飛躍 2,Claude-2的知識截止日期是2023年初,而GPT-4是2021年9月
Thumbnail
推出了其第二代AI聊天機器人版本,並在美國和英國開放公眾測試 要點: 1,最多可概括75,000字,與ChatGPT的3,000字限制相比,是一個巨大的飛躍 2,Claude-2的知識截止日期是2023年初,而GPT-4是2021年9月
Thumbnail
▋ 有一個相當知名的AI聊天機器人排行榜, 「Chatbot Arena Leaderboard」 這個排行榜是由大型模型系統組織(Large Model Systems Organization)所建立的評估平台。 社群成員以匿名方式對兩個不同的AI模型進行提問, 然後進行投票,選出他們最喜
Thumbnail
▋ 有一個相當知名的AI聊天機器人排行榜, 「Chatbot Arena Leaderboard」 這個排行榜是由大型模型系統組織(Large Model Systems Organization)所建立的評估平台。 社群成員以匿名方式對兩個不同的AI模型進行提問, 然後進行投票,選出他們最喜
Thumbnail
大家好! 這次來綜合我常用四種的人工智能工具,根據我之前的測評過的內容,來進行比對與建議。 ChatGPT 簡介: 簡單,快捷,好操作,可查詢,方便的生產工具。 使用建議: 文案創作,日常對話,語音輸出
Thumbnail
大家好! 這次來綜合我常用四種的人工智能工具,根據我之前的測評過的內容,來進行比對與建議。 ChatGPT 簡介: 簡單,快捷,好操作,可查詢,方便的生產工具。 使用建議: 文案創作,日常對話,語音輸出
Thumbnail
自從去年ChatGPT 問世後,各家科技巨頭也紛紛推出自己的AI 聊天機器人,期望跟上AI 帶來的風潮。而今天帶大家認識三個獨具特色的聊天機器人── ChatGPT 作為聊天機器人的帶領者,Pi 被譽為最友善的聊天機器人,Claude2 則是三觀最正確且閱讀量最大的聊天機器人。
Thumbnail
自從去年ChatGPT 問世後,各家科技巨頭也紛紛推出自己的AI 聊天機器人,期望跟上AI 帶來的風潮。而今天帶大家認識三個獨具特色的聊天機器人── ChatGPT 作為聊天機器人的帶領者,Pi 被譽為最友善的聊天機器人,Claude2 則是三觀最正確且閱讀量最大的聊天機器人。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News