更新於 2023/08/17發佈於 2023/08/17閱讀時間約 2 分鐘

【AI聊天機器人大PK】 ── 目前頂尖的AI聊天機器人究竟是誰呢？

▋ 有一個相當知名的AI聊天機器人排行榜，「Chatbot Arena Leaderboard」這個排行榜是由大型模型系統組織（Large Model Systems Organization）所建立的評估平台。

社群成員以匿名方式對兩個不同的AI模型進行提問，然後進行投票，選出他們最喜歡的回答。最終，根據Elo評分系統（一種在象棋和其他競技遊戲中常見的評分系統）進行排名。

這個排行榜總共納入了超過50,000個用戶的投票。

■ 目前Chatbot Arena排行前五名分別是

此外，該網站還提供了另外兩種評估方式的排行榜。

▋ MT-Bench 這是一套測試AI模型是否能像人類一樣理解問題，並解決57個不同領域的問題。

這些問題涵蓋了數學、歷史、法律、電腦科學等多個領域。

■ 基於MT-Bench的AI聊天機器人排行

▋ MMLU（5-shot）這也是一項評估AI模型能力的研究，但與前面的測試方式略有不同，這次是讓AI充當裁判評價其他模型。

研究發現，像GPT-4這樣強大的語言模型，與我們人類的偏好和判斷相似度高達80%，而且成本更低。

■ 基於MMLU（5-shot）的AI聊天機器人排行

▋ 結論在這三種評分標準下，GPT-4持續穩坐第一名的寶座，而第2到5名的模型互相交替。

前五名中，GPT與Claude之間的競爭尤其激烈，這也是我的主觀體驗所感受到的。目前，其他模型尚未能勝過這兩家，但Llama似乎有逐漸追趕上來的趨勢，或許未來前五名會出現新的競爭者。

📚Reference

分享至

成為作者繼續創作的動力吧！

Alan的開發者天地的其他內容