2023-08-17|閱讀時間 ‧ 約 3 分鐘

【AI聊天機器人大PK】 ── 目前頂尖的AI聊天機器人究竟是誰呢?

raw-image

▋ 有一個相當知名的AI聊天機器人排行榜, 「Chatbot Arena Leaderboard」 這個排行榜是由大型模型系統組織(Large Model Systems Organization)所建立的評估平台。

社群成員以匿名方式對兩個不同的AI模型進行提問, 然後進行投票,選出他們最喜歡的回答。 最終,根據Elo評分系統(一種在象棋和其他競技遊戲中常見的評分系統)進行排名。

這個排行榜總共納入了超過50,000個用戶的投票。

■ 目前Chatbot Arena排行前五名分別是

  1. GPT-4
  2. Claude-1
  3. Claude-instant-1
  4. Claude-2
  5. GPT-3.5-turbo

此外,該網站還提供了另外兩種評估方式的排行榜。

▋ MT-Bench 這是一套測試AI模型是否能像人類一樣理解問題,並解決57個不同領域的問題。

這些問題涵蓋了數學、歷史、法律、電腦科學等多個領域。

■ 基於MT-Bench的AI聊天機器人排行

  1. GPT-4
  2. Claude-2
  3. GPT-3.5-turbo
  4. Claude-1
  5. Claude-instant-1

▋ MMLU(5-shot) 這也是一項評估AI模型能力的研究,但與前面的測試方式略有不同,這次是讓AI充當裁判評價其他模型。

研究發現,像GPT-4這樣強大的語言模型,與我們人類的偏好和判斷相似度高達80%,而且成本更低。

■ 基於MMLU(5-shot)的AI聊天機器人排行

  1. GPT-4
  2. Claude-2
  3. Claude-1
  4. Claude-instant-1
  5. GPT-3.5-turbo

▋ 結論 在這三種評分標準下,GPT-4持續穩坐第一名的寶座, 而第2到5名的模型互相交替。

前五名中,GPT與Claude之間的競爭尤其激烈,這也是我的主觀體驗所感受到的。 目前,其他模型尚未能勝過這兩家,但Llama似乎有逐漸追趕上來的趨勢, 或許未來前五名會出現新的競爭者。

📚Reference

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.