▋ 有一個相當知名的AI聊天機器人排行榜, 「Chatbot Arena Leaderboard」 這個排行榜是由大型模型系統組織(Large Model Systems Organization)所建立的評估平台。
社群成員以匿名方式對兩個不同的AI模型進行提問, 然後進行投票,選出他們最喜歡的回答。 最終,根據Elo評分系統(一種在象棋和其他競技遊戲中常見的評分系統)進行排名。
這個排行榜總共納入了超過50,000個用戶的投票。
■ 目前Chatbot Arena排行前五名分別是
此外,該網站還提供了另外兩種評估方式的排行榜。
▋ MT-Bench 這是一套測試AI模型是否能像人類一樣理解問題,並解決57個不同領域的問題。
這些問題涵蓋了數學、歷史、法律、電腦科學等多個領域。
■ 基於MT-Bench的AI聊天機器人排行
▋ MMLU(5-shot) 這也是一項評估AI模型能力的研究,但與前面的測試方式略有不同,這次是讓AI充當裁判評價其他模型。
研究發現,像GPT-4這樣強大的語言模型,與我們人類的偏好和判斷相似度高達80%,而且成本更低。
■ 基於MMLU(5-shot)的AI聊天機器人排行
▋ 結論 在這三種評分標準下,GPT-4持續穩坐第一名的寶座, 而第2到5名的模型互相交替。
前五名中,GPT與Claude之間的競爭尤其激烈,這也是我的主觀體驗所感受到的。 目前,其他模型尚未能勝過這兩家,但Llama似乎有逐漸追趕上來的趨勢, 或許未來前五名會出現新的競爭者。
📚Reference