【AI聊天機器人大PK】 ── 目前頂尖的AI聊天機器人究竟是誰呢?

更新於 發佈於 閱讀時間約 2 分鐘
raw-image

▋ 有一個相當知名的AI聊天機器人排行榜, 「Chatbot Arena Leaderboard」 這個排行榜是由大型模型系統組織(Large Model Systems Organization)所建立的評估平台。

社群成員以匿名方式對兩個不同的AI模型進行提問, 然後進行投票,選出他們最喜歡的回答。 最終,根據Elo評分系統(一種在象棋和其他競技遊戲中常見的評分系統)進行排名。

這個排行榜總共納入了超過50,000個用戶的投票。

■ 目前Chatbot Arena排行前五名分別是

  1. GPT-4
  2. Claude-1
  3. Claude-instant-1
  4. Claude-2
  5. GPT-3.5-turbo

此外,該網站還提供了另外兩種評估方式的排行榜。

▋ MT-Bench 這是一套測試AI模型是否能像人類一樣理解問題,並解決57個不同領域的問題。

這些問題涵蓋了數學、歷史、法律、電腦科學等多個領域。

■ 基於MT-Bench的AI聊天機器人排行

  1. GPT-4
  2. Claude-2
  3. GPT-3.5-turbo
  4. Claude-1
  5. Claude-instant-1

▋ MMLU(5-shot) 這也是一項評估AI模型能力的研究,但與前面的測試方式略有不同,這次是讓AI充當裁判評價其他模型。

研究發現,像GPT-4這樣強大的語言模型,與我們人類的偏好和判斷相似度高達80%,而且成本更低。

■ 基於MMLU(5-shot)的AI聊天機器人排行

  1. GPT-4
  2. Claude-2
  3. Claude-1
  4. Claude-instant-1
  5. GPT-3.5-turbo

▋ 結論 在這三種評分標準下,GPT-4持續穩坐第一名的寶座, 而第2到5名的模型互相交替。

前五名中,GPT與Claude之間的競爭尤其激烈,這也是我的主觀體驗所感受到的。 目前,其他模型尚未能勝過這兩家,但Llama似乎有逐漸追趕上來的趨勢, 或許未來前五名會出現新的競爭者。

📚Reference

avatar-img
17會員
83內容數
golang
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Alan的開發者天地 的其他內容
👨‍💻簡介 在 Golang 中,你可以使用不同的方式來宣告變數和常數。宣告變數時,可以直接指定值,或者使用型別推導,更簡單地用 := 來宣告局部變數。另外,還可以一次宣告多個變數,相同型別的變數可以一起宣告,或者使用括號宣告不同型別的變數。常數則使用 const 關鍵字宣告,確保值不變
👨‍💻簡介 在這篇文章裡,會簡單介紹幾個關鍵的基本概念和語法結構,加快上手這門程式語言。
👨‍💻如何在go中驗證SSL憑證 因之前玩過監控證書,最近在接觸golang因此來看看有甚麼方法能夠取得憑證到期日,最後發現有crypto/tls這個module可以用,驗證步驟簡單三步如下
👨‍💻簡介 今天早上在下kubectl get pods時,突然跳出了以下錯誤 Unable to connect to the server: x509: certificate has expired or is not yet valid
👨‍💻簡介 因在wsl環境下使用websocket通訊協議,並在windows使用postman發生連線被拒 嘗試了localhost與127.0.0.1都無效,爬文後找到了一些解決辦法,這邊簡單紀錄一下
👨‍💻簡介 從來沒想過部署可以如此的方便快速,第一次接觸到Zeabur的時候覺得他跟一般的雲端服務商差不多,架設網站用個vm之類的,但仔細去摸索後才發現他是個想讓開發人員專注在寫扣這件事上,不需去管任何infra相關事項的一個服務,像是架設wordpress需要sql,就簡單的點兩下即可完
👨‍💻簡介 在 Golang 中,你可以使用不同的方式來宣告變數和常數。宣告變數時,可以直接指定值,或者使用型別推導,更簡單地用 := 來宣告局部變數。另外,還可以一次宣告多個變數,相同型別的變數可以一起宣告,或者使用括號宣告不同型別的變數。常數則使用 const 關鍵字宣告,確保值不變
👨‍💻簡介 在這篇文章裡,會簡單介紹幾個關鍵的基本概念和語法結構,加快上手這門程式語言。
👨‍💻如何在go中驗證SSL憑證 因之前玩過監控證書,最近在接觸golang因此來看看有甚麼方法能夠取得憑證到期日,最後發現有crypto/tls這個module可以用,驗證步驟簡單三步如下
👨‍💻簡介 今天早上在下kubectl get pods時,突然跳出了以下錯誤 Unable to connect to the server: x509: certificate has expired or is not yet valid
👨‍💻簡介 因在wsl環境下使用websocket通訊協議,並在windows使用postman發生連線被拒 嘗試了localhost與127.0.0.1都無效,爬文後找到了一些解決辦法,這邊簡單紀錄一下
👨‍💻簡介 從來沒想過部署可以如此的方便快速,第一次接觸到Zeabur的時候覺得他跟一般的雲端服務商差不多,架設網站用個vm之類的,但仔細去摸索後才發現他是個想讓開發人員專注在寫扣這件事上,不需去管任何infra相關事項的一個服務,像是架設wordpress需要sql,就簡單的點兩下即可完
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
實測五大 AI 聊天工具 上一篇文章「2024 五款 AI 聊天機器人 : 選擇最適合你的智慧助理」已經介紹了五大 AI 聊天工具的特色。為了更深入驗證與比較 Perplexity、ChatGPT、Microsoft Copilot、Gemini 和 Claude 五大 AI 聊天工具的表現,我準
Thumbnail
AI聊天機器人已經深入我們的日常生活,不管是在客服、教學輔助,還是日常對話中,這些機器人都能快速回應,提供所需的協助和資訊。 介紹幾個當下最熱門的AI聊天機人工具,包括ChatGPT、Microsoft Copilot、Gemini和Perplexity,幫助讀者了解哪一款工具最符合需求。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
ChatGPT上線已經一年多了,連GPT-4上架到市面上販售也都一年了,眾所周知ChatGPT就是GPT-3.5,而微軟的搜尋引擎Bing使用的是GPT-4,那針對同一個問題,3.5的版本與4.0的版本在回答上會做出什麼樣的差別?她們在智力上有明顯的差別嗎?她們面對問題的思考上有什麼不一樣呢?
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
圖靈測試是用於衡量機器是否能夠表現出與人類相等的智能的方法。本文介紹了圖靈測試的歷史、原理和評價,並探討了ChatGPT是否能通過該測試的問題
Thumbnail
從ChatGPT 4.0到GPTs 我是ChatGPT 4.0的付費使用者,說真格的,自從付費之後,就不想退出了,因為真是好用。 最近,ChatGPT 4.0又提供了GPTs的服務...... 有時候別人邀請我演講,我都會先溝通需求,有一次,某間學校邀請我對學生分享ChatGPT等生成式人工智
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
實測五大 AI 聊天工具 上一篇文章「2024 五款 AI 聊天機器人 : 選擇最適合你的智慧助理」已經介紹了五大 AI 聊天工具的特色。為了更深入驗證與比較 Perplexity、ChatGPT、Microsoft Copilot、Gemini 和 Claude 五大 AI 聊天工具的表現,我準
Thumbnail
AI聊天機器人已經深入我們的日常生活,不管是在客服、教學輔助,還是日常對話中,這些機器人都能快速回應,提供所需的協助和資訊。 介紹幾個當下最熱門的AI聊天機人工具,包括ChatGPT、Microsoft Copilot、Gemini和Perplexity,幫助讀者了解哪一款工具最符合需求。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
ChatGPT上線已經一年多了,連GPT-4上架到市面上販售也都一年了,眾所周知ChatGPT就是GPT-3.5,而微軟的搜尋引擎Bing使用的是GPT-4,那針對同一個問題,3.5的版本與4.0的版本在回答上會做出什麼樣的差別?她們在智力上有明顯的差別嗎?她們面對問題的思考上有什麼不一樣呢?
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
圖靈測試是用於衡量機器是否能夠表現出與人類相等的智能的方法。本文介紹了圖靈測試的歷史、原理和評價,並探討了ChatGPT是否能通過該測試的問題
Thumbnail
從ChatGPT 4.0到GPTs 我是ChatGPT 4.0的付費使用者,說真格的,自從付費之後,就不想退出了,因為真是好用。 最近,ChatGPT 4.0又提供了GPTs的服務...... 有時候別人邀請我演講,我都會先溝通需求,有一次,某間學校邀請我對學生分享ChatGPT等生成式人工智