【AI聊天機器人大PK】 ── 目前頂尖的AI聊天機器人究竟是誰呢？

wang alan

更新於 2023/08/17發佈於 2023/08/17閱讀時間約 2 分鐘

▋ 有一個相當知名的AI聊天機器人排行榜，「Chatbot Arena Leaderboard」這個排行榜是由大型模型系統組織（Large Model Systems Organization）所建立的評估平台。

社群成員以匿名方式對兩個不同的AI模型進行提問，然後進行投票，選出他們最喜歡的回答。最終，根據Elo評分系統（一種在象棋和其他競技遊戲中常見的評分系統）進行排名。

這個排行榜總共納入了超過50,000個用戶的投票。

■ 目前Chatbot Arena排行前五名分別是

GPT-4
Claude-1
Claude-instant-1
Claude-2
GPT-3.5-turbo

此外，該網站還提供了另外兩種評估方式的排行榜。

▋ MT-Bench 這是一套測試AI模型是否能像人類一樣理解問題，並解決57個不同領域的問題。

這些問題涵蓋了數學、歷史、法律、電腦科學等多個領域。

■ 基於MT-Bench的AI聊天機器人排行

GPT-4
Claude-2
GPT-3.5-turbo
Claude-1
Claude-instant-1

▋ MMLU（5-shot）這也是一項評估AI模型能力的研究，但與前面的測試方式略有不同，這次是讓AI充當裁判評價其他模型。

研究發現，像GPT-4這樣強大的語言模型，與我們人類的偏好和判斷相似度高達80%，而且成本更低。

■ 基於MMLU（5-shot）的AI聊天機器人排行

GPT-4
Claude-2
Claude-1
Claude-instant-1
GPT-3.5-turbo

▋ 結論在這三種評分標準下，GPT-4持續穩坐第一名的寶座，而第2到5名的模型互相交替。

前五名中，GPT與Claude之間的競爭尤其激烈，這也是我的主觀體驗所感受到的。目前，其他模型尚未能勝過這兩家，但Llama似乎有逐漸追趕上來的趨勢，或許未來前五名會出現新的競爭者。

📚Reference

Chatbot Arena Leaderboard - a Hugging Face Space by lmsys

#聊天機器人

#GPT-4

#模型

留言

留言分享你的想法！

Alan的開發者天地

19會員

83內容數

golang

Alan的開發者天地的其他內容

2024/09/22

如何在 aws-cli 快速切換帳號

👨‍💻簡介在工作上如果有多組 AWS 環境，會需要快速切換進行操作，這篇簡單記錄一下如何快速方便的透過 aws-cli 切換帳號 💡解決辦法使用 --profile 參數在每次執行指令後面添加 --profile，指定要使用的 profile aws s3 ls --profi

2024/09/22

如何在 aws-cli 快速切換帳號

2024/09/22

如何在 AWS 使用 SASL/SCRAM 建立 MSK

在這篇文章中，我們將介紹如何設置和使用 Amazon MSK。本文涵蓋了從創建叢集、配置安全設定、到使用 AWS Secrets Manager 管理機密的完整過程。特別關注配置 SASL/SCRAM 身分驗證和開放外部存取的設定。幫助使用者快速上手 MSK，並確保安全與高可用性。

2024/09/22

如何在 AWS 使用 SASL/SCRAM 建立 MSK

2024/09/15

MongoRestore 快速介紹

本文介紹如何使用 MongoDB 的命令行工具 Mongorestore 將先前備份的資料還原到資料庫中。Mongorestore 支援資料庫的整體恢復、特定集合的恢復，以及從遠端伺服器進行恢復等功能。無論是初學者還是有經驗的使用者，都能夠快速掌握如何使用 Mongorestore 工具。

2024/09/15

MongoRestore 快速介紹

看更多

你可能也想看

Everything ✨

全球最強 AI 模型 - Claude 3，ChatGPT 的最強競爭對手

Anthropic推出了新的Claude 3系列模型，號稱打敗OpenAI GPT-4與Google Gemini，成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。

#GPT-4#模型#OpenAI

2024/03/06

Everything ✨

全球最強 AI 模型 - Claude 3，ChatGPT 的最強競爭對手

#GPT-4#模型#OpenAI

2024/03/06

Focus 否可思的沙龍

ChatGPT大解密！AI神器的基本原理、功能介紹｜Focus

基本介紹及主要的功能。淺層基礎原理解釋。優缺點及問題分析。 ChatGPT，這個名字在過去幾個月內迅速成為科技界的一個熱門話題。它是由OpenAI發布的一款聊天機器人，自從去年11月推出以來，它以驚人的速度突破了1億的訪問量，不僅成為了成長速度最快的消費者應用程式，更在各種專業和學術

#ChatGPT#OpenAI#聊天機器人

2023/11/20

Focus 否可思的沙龍

ChatGPT大解密！AI神器的基本原理、功能介紹｜Focus

#ChatGPT#OpenAI#聊天機器人

2023/11/20

深海大花枝的沙龍

更快、更親切，而且免費ーー被稱為ChatGPT最大競爭對手的Claude真的那麼好用嗎？

Claude跟ChatGPT究竟有哪些差異？先講我目前的結論：如果你需要AI處理的是文字工作，那麼Claude目前看起來些微落敗於GPT-4，但遠優於GPT-3.5，而且目前Claude還不用收費。 Claude使用起來的確大部分如他所說：整體給人的感受很正面、並且記憶力相當不錯。

#ChatGPT#GPT-4#AI

2023/10/18

深海大花枝的沙龍

更快、更親切，而且免費ーー被稱為ChatGPT最大競爭對手的Claude真的那麼好用嗎？

#ChatGPT#GPT-4#AI

2023/10/18

男子漢聊AI的沙龍

當ChatGPT 重新嘗試UPSC 時

今年二月，第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC（被廣泛認為是世界上最難考試之一）時，它慘遭失敗。ChatGPT 無法通過UPSC 預賽，使許多人為自己感到驕傲。但是，自從我們做了這個故事以來，人工智慧世界發生了許多新的更新和發展。

2023/10/18

2023/10/18

ChatGPT競爭對手——Claude 2

推出了其第二代AI聊天機器人版本，並在美國和英國開放公眾測試要點： 1，最多可概括75，000字，與ChatGPT的3，000字限制相比，是一個巨大的飛躍 2，Claude-2的知識截止日期是2023年初，而GPT-4是2021年9月

#AI工具推薦

2023/10/17

男子漢聊AI的沙龍

ChatGPT競爭對手——Claude 2

#AI工具推薦