【AI聊天機器人大PK】 ── 目前頂尖的AI聊天機器人究竟是誰呢?

閱讀時間約 2 分鐘
raw-image

▋ 有一個相當知名的AI聊天機器人排行榜, 「Chatbot Arena Leaderboard」 這個排行榜是由大型模型系統組織(Large Model Systems Organization)所建立的評估平台。

社群成員以匿名方式對兩個不同的AI模型進行提問, 然後進行投票,選出他們最喜歡的回答。 最終,根據Elo評分系統(一種在象棋和其他競技遊戲中常見的評分系統)進行排名。

這個排行榜總共納入了超過50,000個用戶的投票。

■ 目前Chatbot Arena排行前五名分別是

  1. GPT-4
  2. Claude-1
  3. Claude-instant-1
  4. Claude-2
  5. GPT-3.5-turbo

此外,該網站還提供了另外兩種評估方式的排行榜。

▋ MT-Bench 這是一套測試AI模型是否能像人類一樣理解問題,並解決57個不同領域的問題。

這些問題涵蓋了數學、歷史、法律、電腦科學等多個領域。

■ 基於MT-Bench的AI聊天機器人排行

  1. GPT-4
  2. Claude-2
  3. GPT-3.5-turbo
  4. Claude-1
  5. Claude-instant-1

▋ MMLU(5-shot) 這也是一項評估AI模型能力的研究,但與前面的測試方式略有不同,這次是讓AI充當裁判評價其他模型。

研究發現,像GPT-4這樣強大的語言模型,與我們人類的偏好和判斷相似度高達80%,而且成本更低。

■ 基於MMLU(5-shot)的AI聊天機器人排行

  1. GPT-4
  2. Claude-2
  3. Claude-1
  4. Claude-instant-1
  5. GPT-3.5-turbo

▋ 結論 在這三種評分標準下,GPT-4持續穩坐第一名的寶座, 而第2到5名的模型互相交替。

前五名中,GPT與Claude之間的競爭尤其激烈,這也是我的主觀體驗所感受到的。 目前,其他模型尚未能勝過這兩家,但Llama似乎有逐漸追趕上來的趨勢, 或許未來前五名會出現新的競爭者。

📚Reference

avatar-img
17會員
83內容數
golang
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Alan的開發者天地 的其他內容
👨‍💻簡介 在 Golang 中,你可以使用不同的方式來宣告變數和常數。宣告變數時,可以直接指定值,或者使用型別推導,更簡單地用 := 來宣告局部變數。另外,還可以一次宣告多個變數,相同型別的變數可以一起宣告,或者使用括號宣告不同型別的變數。常數則使用 const 關鍵字宣告,確保值不變
👨‍💻簡介 在這篇文章裡,會簡單介紹幾個關鍵的基本概念和語法結構,加快上手這門程式語言。
👨‍💻如何在go中驗證SSL憑證 因之前玩過監控證書,最近在接觸golang因此來看看有甚麼方法能夠取得憑證到期日,最後發現有crypto/tls這個module可以用,驗證步驟簡單三步如下
👨‍💻簡介 今天早上在下kubectl get pods時,突然跳出了以下錯誤 Unable to connect to the server: x509: certificate has expired or is not yet valid
👨‍💻簡介 因在wsl環境下使用websocket通訊協議,並在windows使用postman發生連線被拒 嘗試了localhost與127.0.0.1都無效,爬文後找到了一些解決辦法,這邊簡單紀錄一下
👨‍💻簡介 從來沒想過部署可以如此的方便快速,第一次接觸到Zeabur的時候覺得他跟一般的雲端服務商差不多,架設網站用個vm之類的,但仔細去摸索後才發現他是個想讓開發人員專注在寫扣這件事上,不需去管任何infra相關事項的一個服務,像是架設wordpress需要sql,就簡單的點兩下即可完
👨‍💻簡介 在 Golang 中,你可以使用不同的方式來宣告變數和常數。宣告變數時,可以直接指定值,或者使用型別推導,更簡單地用 := 來宣告局部變數。另外,還可以一次宣告多個變數,相同型別的變數可以一起宣告,或者使用括號宣告不同型別的變數。常數則使用 const 關鍵字宣告,確保值不變
👨‍💻簡介 在這篇文章裡,會簡單介紹幾個關鍵的基本概念和語法結構,加快上手這門程式語言。
👨‍💻如何在go中驗證SSL憑證 因之前玩過監控證書,最近在接觸golang因此來看看有甚麼方法能夠取得憑證到期日,最後發現有crypto/tls這個module可以用,驗證步驟簡單三步如下
👨‍💻簡介 今天早上在下kubectl get pods時,突然跳出了以下錯誤 Unable to connect to the server: x509: certificate has expired or is not yet valid
👨‍💻簡介 因在wsl環境下使用websocket通訊協議,並在windows使用postman發生連線被拒 嘗試了localhost與127.0.0.1都無效,爬文後找到了一些解決辦法,這邊簡單紀錄一下
👨‍💻簡介 從來沒想過部署可以如此的方便快速,第一次接觸到Zeabur的時候覺得他跟一般的雲端服務商差不多,架設網站用個vm之類的,但仔細去摸索後才發現他是個想讓開發人員專注在寫扣這件事上,不需去管任何infra相關事項的一個服務,像是架設wordpress需要sql,就簡單的點兩下即可完
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
自從去年ChatGPT 問世後,各家科技巨頭也紛紛推出自己的AI 聊天機器人,期望跟上AI 帶來的風潮。而今天帶大家認識三個獨具特色的聊天機器人── ChatGPT 作為聊天機器人的帶領者,Pi 被譽為最友善的聊天機器人,Claude2 則是三觀最正確且閱讀量最大的聊天機器人。
Thumbnail
新的AI聊天機器人Claude推出了。 Claude是由Anthropic這間AI新創公司推出的聊天機器人,光是這樣講似乎還聽不出厲害之處。實際上,Anthropic是由OpenAI前研究副總裁Dario Amodei所創立,內部成員也包含多位OpenAI前研究員。
Thumbnail
我發現了一個有趣的網站,雖然很沒營養,但真的挺有趣的。 chirper.ai是一個可以讓AI們自己交流聊天的簡易版推特,人類無法參與聊天,只能純觀賞他們的互動與自言自語。 除了純觀看之外,也能創建自己的機器人,機器人的背景與人格可以自己設定,例如你可以建立一個AI川普,或是AI拜登,或是AI明星
Thumbnail
google目前已開放台灣使用google bard AI 聊天機器人了,不知道為什麼新聞區沒消沒息的,照目前的風向應該是AI有點風吹草動立刻就會有舖天蓋地抄來抄去的新聞或部落格文章,但我特地查了一下確實無人提及此事。
Thumbnail
S1. 至 GitHub 上抓原碼下來 S2.不想自己編譯,就到這抓編譯好的 執行檔案 S3.下載 Model S4.把 Model 放到 同一個資料夾內 S5.執行~
Thumbnail
自從ChatGPT爆紅,我就經常被問到譯者是不是要失業了。首先是朋友在某篇文章的留言處標註我,文章的內容大致是用程式翻譯一本書,成本不到一塊美金。後來是我很喜歡的譯者洪慧芳在自己的臉書上發表他對這件事的看法,讓我覺得心有戚戚焉。坦白說,我至今沒有使用過,為了寫這篇文章,我才申請帳號和機器人聊天。
Thumbnail
用戶在應用程式商店下載了AI聊天機器人ChatGPT後,信用卡帳單不只莫名奇妙被刷上千元,還多出好幾筆小額支付,一查才發現自己竟然載錯軟體被盜刷了!
最近AI聊天機器人ChatGPT超級夯,新聞版面滿滿的它,還讓相關的股票節節高升,真的是很神奇。
Thumbnail
ChatGPT不僅幫助大學生寫論文拿下高分,還能通過賓夕法尼亞商學院的MBA期末考試,甚至能通過了谷歌三級工程師的入職測試。 投資者對此紛紛側目,想要知道這種語言生成AI是否值得投資? 針對這個問題,我們詢問了當事人ChatGPT的意見
Thumbnail
很多人應該最近都被 ChatGPT 的問答截圖給刷屏,甚至很多人說他是 Google killer,這篇分享給大家ChatGPT到底能做到什麼,他對Google有什麼影響
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
自從去年ChatGPT 問世後,各家科技巨頭也紛紛推出自己的AI 聊天機器人,期望跟上AI 帶來的風潮。而今天帶大家認識三個獨具特色的聊天機器人── ChatGPT 作為聊天機器人的帶領者,Pi 被譽為最友善的聊天機器人,Claude2 則是三觀最正確且閱讀量最大的聊天機器人。
Thumbnail
新的AI聊天機器人Claude推出了。 Claude是由Anthropic這間AI新創公司推出的聊天機器人,光是這樣講似乎還聽不出厲害之處。實際上,Anthropic是由OpenAI前研究副總裁Dario Amodei所創立,內部成員也包含多位OpenAI前研究員。
Thumbnail
我發現了一個有趣的網站,雖然很沒營養,但真的挺有趣的。 chirper.ai是一個可以讓AI們自己交流聊天的簡易版推特,人類無法參與聊天,只能純觀賞他們的互動與自言自語。 除了純觀看之外,也能創建自己的機器人,機器人的背景與人格可以自己設定,例如你可以建立一個AI川普,或是AI拜登,或是AI明星
Thumbnail
google目前已開放台灣使用google bard AI 聊天機器人了,不知道為什麼新聞區沒消沒息的,照目前的風向應該是AI有點風吹草動立刻就會有舖天蓋地抄來抄去的新聞或部落格文章,但我特地查了一下確實無人提及此事。
Thumbnail
S1. 至 GitHub 上抓原碼下來 S2.不想自己編譯,就到這抓編譯好的 執行檔案 S3.下載 Model S4.把 Model 放到 同一個資料夾內 S5.執行~
Thumbnail
自從ChatGPT爆紅,我就經常被問到譯者是不是要失業了。首先是朋友在某篇文章的留言處標註我,文章的內容大致是用程式翻譯一本書,成本不到一塊美金。後來是我很喜歡的譯者洪慧芳在自己的臉書上發表他對這件事的看法,讓我覺得心有戚戚焉。坦白說,我至今沒有使用過,為了寫這篇文章,我才申請帳號和機器人聊天。
Thumbnail
用戶在應用程式商店下載了AI聊天機器人ChatGPT後,信用卡帳單不只莫名奇妙被刷上千元,還多出好幾筆小額支付,一查才發現自己竟然載錯軟體被盜刷了!
最近AI聊天機器人ChatGPT超級夯,新聞版面滿滿的它,還讓相關的股票節節高升,真的是很神奇。
Thumbnail
ChatGPT不僅幫助大學生寫論文拿下高分,還能通過賓夕法尼亞商學院的MBA期末考試,甚至能通過了谷歌三級工程師的入職測試。 投資者對此紛紛側目,想要知道這種語言生成AI是否值得投資? 針對這個問題,我們詢問了當事人ChatGPT的意見
Thumbnail
很多人應該最近都被 ChatGPT 的問答截圖給刷屏,甚至很多人說他是 Google killer,這篇分享給大家ChatGPT到底能做到什麼,他對Google有什麼影響