【AI聊天機器人大PK】 ── 目前頂尖的AI聊天機器人究竟是誰呢？

wang alan

2023/08/17閱讀時間約 2 分鐘

▋ 有一個相當知名的AI聊天機器人排行榜，「Chatbot Arena Leaderboard」這個排行榜是由大型模型系統組織（Large Model Systems Organization）所建立的評估平台。

社群成員以匿名方式對兩個不同的AI模型進行提問，然後進行投票，選出他們最喜歡的回答。最終，根據Elo評分系統（一種在象棋和其他競技遊戲中常見的評分系統）進行排名。

這個排行榜總共納入了超過50,000個用戶的投票。

■ 目前Chatbot Arena排行前五名分別是

GPT-4
Claude-1
Claude-instant-1
Claude-2
GPT-3.5-turbo

此外，該網站還提供了另外兩種評估方式的排行榜。

▋ MT-Bench 這是一套測試AI模型是否能像人類一樣理解問題，並解決57個不同領域的問題。

這些問題涵蓋了數學、歷史、法律、電腦科學等多個領域。

■ 基於MT-Bench的AI聊天機器人排行

GPT-4
Claude-2
GPT-3.5-turbo
Claude-1
Claude-instant-1

▋ MMLU（5-shot）這也是一項評估AI模型能力的研究，但與前面的測試方式略有不同，這次是讓AI充當裁判評價其他模型。

研究發現，像GPT-4這樣強大的語言模型，與我們人類的偏好和判斷相似度高達80%，而且成本更低。

■ 基於MMLU（5-shot）的AI聊天機器人排行

GPT-4
Claude-2
Claude-1
Claude-instant-1
GPT-3.5-turbo

▋ 結論在這三種評分標準下，GPT-4持續穩坐第一名的寶座，而第2到5名的模型互相交替。

前五名中，GPT與Claude之間的競爭尤其激烈，這也是我的主觀體驗所感受到的。目前，其他模型尚未能勝過這兩家，但Llama似乎有逐漸追趕上來的趨勢，或許未來前五名會出現新的競爭者。

📚Reference

Chatbot Arena Leaderboard - a Hugging Face Space by lmsys

17會員

83內容數

golang

留言0

查看全部

發表第一個留言支持創作者！

Alan的開發者天地的其他內容

淺談 Golang 變數與常數：宣告、初始化與使用

👨‍💻簡介在 Golang 中，你可以使用不同的方式來宣告變數和常數。宣告變數時，可以直接指定值，或者使用型別推導，更簡單地用 := 來宣告局部變數。另外，還可以一次宣告多個變數，相同型別的變數可以一起宣告，或者使用括號宣告不同型別的變數。常數則使用 const 關鍵字宣告，確保值不變

#Golang #程式 #tutorial

🚀入門 Go 語言：關鍵概念、語法結構與實用技巧✨

👨‍💻簡介在這篇文章裡，會簡單介紹幾個關鍵的基本概念和語法結構，加快上手這門程式語言。

#程式 #Golang #tutorial

如何在go中驗證SSL憑證

👨‍💻如何在go中驗證SSL憑證因之前玩過監控證書，最近在接觸golang因此來看看有甚麼方法能夠取得憑證到期日，最後發現有crypto/tls這個module可以用，驗證步驟簡單三步如下

#Golang #go #網站

K8S憑證過期：X509: Certificate Has Expired Or Is Not Yet Valid

👨‍💻簡介今天早上在下kubectl get pods時，突然跳出了以下錯誤 Unable to connect to the server: x509: certificate has expired or is not yet valid

#過期 #Kubernetes #憑證

WSL環境下使用websocket連線被拒

👨‍💻簡介因在wsl環境下使用websocket通訊協議，並在windows使用postman發生連線被拒嘗試了localhost與127.0.0.1都無效，爬文後找到了一些解決辦法，這邊簡單紀錄一下

#Windows #wsl

《Zeabur - 部署服務從未如此簡單》

👨‍💻簡介從來沒想過部署可以如此的方便快速，第一次接觸到Zeabur的時候覺得他跟一般的雲端服務商差不多，架設網站用個vm之類的，但仔細去摸索後才發現他是個想讓開發人員專注在寫扣這件事上，不需去管任何infra相關事項的一個服務，像是架設wordpress需要sql，就簡單的點兩下即可完

#部署 #專案 #部落格

淺談 Golang 變數與常數：宣告、初始化與使用

#Golang #程式 #tutorial

🚀入門 Go 語言：關鍵概念、語法結構與實用技巧✨

👨‍💻簡介在這篇文章裡，會簡單介紹幾個關鍵的基本概念和語法結構，加快上手這門程式語言。

#程式 #Golang #tutorial

如何在go中驗證SSL憑證

#Golang #go #網站

K8S憑證過期：X509: Certificate Has Expired Or Is Not Yet Valid

👨‍💻簡介今天早上在下kubectl get pods時，突然跳出了以下錯誤 Unable to connect to the server: x509: certificate has expired or is not yet valid

#過期 #Kubernetes #憑證

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國總統大選只剩下三天，我們觀察一整週民調與金融市場的變化（包含賭局），到本週五下午3:00前為止，誰是美國總統幾乎大概可以猜到60-70%的機率，本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Faker昨天真的太扯了，中國主播王多多點評的話更是精妙，分享給各位王多多的點評「Faker是我們的處境，他是LPL永遠繞不開的一個人和話題，所以我們特別渴望在決賽跟他相遇，去直面我們的處境。我們曾經稱他為最高的山，最長的河，以為山海就是盡頭，可是Faker用他28歲的年齡...

#Faker #電競 #運動

馬克解讀金融科技的沙龍

2023/08/04

各具特色的AI 聊天機器人

自從去年ChatGPT 問世後，各家科技巨頭也紛紛推出自己的AI 聊天機器人，期望跟上AI 帶來的風潮。而今天帶大家認識三個獨具特色的聊天機器人── ChatGPT 作為聊天機器人的帶領者，Pi 被譽為最友善的聊天機器人，Claude2 則是三觀最正確且閱讀量最大的聊天機器人。

#聊天機器人 #人工智能 #OpenAI

因人廢言

2023/05/17

又有新的AI聊天機器人能玩了，OpenAI ChatGPT的新對手：Claude

新的AI聊天機器人Claude推出了。 Claude是由Anthropic這間AI新創公司推出的聊天機器人，光是這樣講似乎還聽不出厲害之處。實際上，Anthropic是由OpenAI前研究副總裁Dario Amodei所創立，內部成員也包含多位OpenAI前研究員。

#ChatGPT #OpenAI #聊天機器人

因人廢言

2023/05/03

一個可以看機器人們聊天打屁的AI版推特

我發現了一個有趣的網站，雖然很沒營養，但真的挺有趣的。 chirper.ai是一個可以讓AI們自己交流聊天的簡易版推特，人類無法參與聊天，只能純觀賞他們的互動與自言自語。除了純觀看之外，也能創建自己的機器人，機器人的背景與人格可以自己設定，例如你可以建立一個AI川普，或是AI拜登，或是AI明星

#機器人 #推特 #twitter

因人廢言

2023/04/22

台灣現在也能使用google bard AI 聊天機器人了

google目前已開放台灣使用google bard AI 聊天機器人了，不知道為什麼新聞區沒消沒息的，照目前的風向應該是AI有點風吹草動立刻就會有舖天蓋地抄來抄去的新聞或部落格文章，但我特地查了一下確實無人提及此事。

#聊天機器人 #Bard #ai

吳佳鑫的沙龍

2023/03/23

Stanford Alpaca cpp | AI 聊天機器人

S1. 至 GitHub 上抓原碼下來 S2.不想自己編譯，就到這抓編譯好的執行檔案 S3.下載 Model S4.把 Model 放到同一個資料夾內 S5.執行~

#AI #chatgpt #alpaca

小譯者的日常

2023/03/07

【小譯者之眼】ChatGPT橫空出世，AI聊天機器人要取代譯者了嗎？

自從ChatGPT爆紅，我就經常被問到譯者是不是要失業了。首先是朋友在某篇文章的留言處標註我，文章的內容大致是用程式翻譯一本書，成本不到一塊美金。後來是我很喜歡的譯者洪慧芳在自己的臉書上發表他對這件事的看法，讓我覺得心有戚戚焉。坦白說，我至今沒有使用過，為了寫這篇文章，我才申請帳號和機器人聊天。

#ChatGPT #聊天機器人 #小譯者的日常

防詐達人的沙龍

2023/02/22

AI聊天機器人ChatGPT遭詐騙集團利用，搖身一變ChatGBT App，還盜刷用戶信用卡上千元

用戶在應用程式商店下載了AI聊天機器人ChatGPT後，信用卡帳單不只莫名奇妙被刷上千元，還多出好幾筆小額支付，一查才發現自己竟然載錯軟體被盜刷了！

#ChatGPT #詐騙 #防詐達人

葉子的沙龍

2023/02/12

日新月異AI聊天機器人ChatGPT

最近AI聊天機器人ChatGPT超級夯，新聞版面滿滿的它，還讓相關的股票節節高升，真的是很神奇。

#ChatGPT #聊天機器人 #AI

ACY證券的沙龍

2023/02/08

【ACY證券】拳打siri腳踢小娜，AI聊天機器人ChatGPT橫空出世！

ChatGPT不僅幫助大學生寫論文拿下高分，還能通過賓夕法尼亞商學院的MBA期末考試，甚至能通過了谷歌三級工程師的入職測試。投資者對此紛紛側目，想要知道這種語言生成AI是否值得投資？針對這個問題，我們詢問了當事人ChatGPT的意見

#ChatGPT #語言 #投資

IEO 國際財經科技前沿觀察

2022/12/10

ChatGPT是Google殺手？ AI 聊天機器人的應用案例

很多人應該最近都被 ChatGPT 的問答截圖給刷屏，甚至很多人說他是 Google killer，這篇分享給大家ChatGPT到底能做到什麼，他對Google有什麼影響

#OpenAI #ChatGPT #Google

方格子 vocus 官方沙龍

2024/10/21

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

#Faker #電競 #運動

馬克解讀金融科技的沙龍

2023/08/04

各具特色的AI 聊天機器人

#聊天機器人 #人工智能 #OpenAI

因人廢言

2023/05/17

又有新的AI聊天機器人能玩了，OpenAI ChatGPT的新對手：Claude

#ChatGPT #OpenAI #聊天機器人

因人廢言

2023/05/03

一個可以看機器人們聊天打屁的AI版推特

#機器人 #推特 #twitter

因人廢言

2023/04/22

台灣現在也能使用google bard AI 聊天機器人了

#聊天機器人 #Bard #ai

吳佳鑫的沙龍

2023/03/23

Stanford Alpaca cpp | AI 聊天機器人

S1. 至 GitHub 上抓原碼下來 S2.不想自己編譯，就到這抓編譯好的執行檔案 S3.下載 Model S4.把 Model 放到同一個資料夾內 S5.執行~

#AI #chatgpt #alpaca

小譯者的日常

2023/03/07

【小譯者之眼】ChatGPT橫空出世，AI聊天機器人要取代譯者了嗎？

#ChatGPT #聊天機器人 #小譯者的日常

防詐達人的沙龍

2023/02/22

AI聊天機器人ChatGPT遭詐騙集團利用，搖身一變ChatGBT App，還盜刷用戶信用卡上千元

#ChatGPT #詐騙 #防詐達人

葉子的沙龍

2023/02/12

日新月異AI聊天機器人ChatGPT

最近AI聊天機器人ChatGPT超級夯，新聞版面滿滿的它，還讓相關的股票節節高升，真的是很神奇。

#ChatGPT #聊天機器人 #AI

ACY證券的沙龍

2023/02/08

【ACY證券】拳打siri腳踢小娜，AI聊天機器人ChatGPT橫空出世！

#ChatGPT #語言 #投資

IEO 國際財經科技前沿觀察

2022/12/10

ChatGPT是Google殺手？ AI 聊天機器人的應用案例

很多人應該最近都被 ChatGPT 的問答截圖給刷屏，甚至很多人說他是 Google killer，這篇分享給大家ChatGPT到底能做到什麼，他對Google有什麼影響

#OpenAI #ChatGPT #Google

【AI聊天機器人大PK】 ── 目前頂尖的AI聊天機器人究竟是誰呢？

淺談 Golang 變數與常數：宣告、初始化與使用

🚀入門 Go 語言：關鍵概念、語法結構與實用技巧✨

如何在go中驗證SSL憑證

K8S憑證過期：X509: Certificate Has Expired Or Is Not Yet Valid

WSL環境下使用websocket連線被拒

《Zeabur - 部署服務 從未如此簡單》

淺談 Golang 變數與常數：宣告、初始化與使用

🚀入門 Go 語言：關鍵概念、語法結構與實用技巧✨

如何在go中驗證SSL憑證

K8S憑證過期：X509: Certificate Has Expired Or Is Not Yet Valid

WSL環境下使用websocket連線被拒

《Zeabur - 部署服務 從未如此簡單》

你可能也想看

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

美國大選『終局之戰』（Endgame）即將展開， 美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

各具特色的AI 聊天機器人

又有新的AI聊天機器人能玩了，OpenAI ChatGPT的新對手：Claude

一個可以看機器人們聊天打屁的AI版推特

台灣現在也能使用google bard AI 聊天機器人了

Stanford Alpaca cpp | AI 聊天機器人

【小譯者之眼】ChatGPT橫空出世，AI聊天機器人要取代譯者了嗎？

AI聊天機器人ChatGPT遭詐騙集團利用，搖身一變ChatGBT App，還盜刷用戶信用卡上千元

日新月異AI聊天機器人ChatGPT

【ACY證券】拳打siri腳踢小娜，AI聊天機器人ChatGPT橫空出世！

ChatGPT是Google殺手？ AI 聊天機器人的應用案例

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

美國大選『終局之戰』（Endgame）即將展開， 美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

各具特色的AI 聊天機器人

又有新的AI聊天機器人能玩了，OpenAI ChatGPT的新對手：Claude

一個可以看機器人們聊天打屁的AI版推特

台灣現在也能使用google bard AI 聊天機器人了

Stanford Alpaca cpp | AI 聊天機器人

【小譯者之眼】ChatGPT橫空出世，AI聊天機器人要取代譯者了嗎？

AI聊天機器人ChatGPT遭詐騙集團利用，搖身一變ChatGBT App，還盜刷用戶信用卡上千元

日新月異AI聊天機器人ChatGPT

【ACY證券】拳打siri腳踢小娜，AI聊天機器人ChatGPT橫空出世！

ChatGPT是Google殺手？ AI 聊天機器人的應用案例

《Zeabur - 部署服務從未如此簡單》

《Zeabur - 部署服務從未如此簡單》

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）