11/17 那一天xAI 宣布他們家的 Grok 4.1 Thinking 在 LMArena 的評測上遙遙領先 Google 的 Gemini 2.5 Pro,穩居榜首。結果隔天,也就是 11/18 Google 就宣布,他們家的新模型 Gemini 3 Pro 已經再次超車,在 LMArena 的評測上創下綜合能力評估的新紀錄,重新拿回過去蟬聯六個月的榜首,而且在多個面向遙遙領先其他家。這就等於 Grok 4.1 只做了一天的 AI 天下第一王位,然後就又被 Google 趕下台,擠到凸台的第二位去了。
到底 LMArena 是一個什麼樣的評測呢,大家為何都會以在這個榜單上的成績拿出來說嘴呢?LMArena 有哪些有趣的評測項目?又是如何讓超過一千九百萬人次上去盲測評分,找出大家最喜歡的AI呢?今天讓楊老師來跟你好好講一下。
LMArena 是一個由加州大學柏克萊分校團隊所主導開發的一個開源線上平台,他的目的是要讓我們可以用公平客觀的方式,進去測試和比較各個送測的大型AI模型。使用者可以免費使用 LMArena 上的各種最新模型,去跟他們聊天、生成圖片或影片,條件是要參與使用後的投票表決。
楊老師AI365 LMArena到底是什麼?為什麼AI大廠都以他為標竿?
每次系統都會隨機安排兩個AI模型來回答你的問題,滿足你的需求。完成之後,你再從中選出表現比較好的那一個模型,然後系統就會揭開謎底,告訴你剛剛為你服務的是哪一個模型,這是不是很有趣。
所以,我們可以說 LMArena 的機制就像是「盲測」一樣,很公平、不可能作弊,這樣子累積夠多的使用者測試結果之後,我們就可以知道,到底誰是目前表現最好的大語言模型。
楊老師覺得這個平台很有趣,他就跟十項全能的競技比賽一樣,你進去之後可以看每一項的即時更新,每天都會有名次上的變化,隨時可以上去看看現在是誰是各單項的世界冠軍。
剛剛我進去看,幫大家做了一個統計喔,這是截至目前為止,今天的世界排名:
在圖像編輯的排行榜上,有爆量的1980萬人次參與投票,17個模型參賽,Google Gemini 3.0 Pro,也就是我們熟知的奈米香蕉Pro版模型 排名第一,第二名也是Google,是奈米香蕉的前一個版本,在台灣掀起P圖熱潮的Google Gemini 2.5 Flash,奈米香蕉第一版。
在文字能力排行榜上,有累積約460萬人次參與投票,在273個大語言模型中,Google Gemini 3.0 Pro 排名第一,Grok 4.1 思考模式緊接在後。
如果是文字轉圖形的排名賽,也有350萬人次投票,30個模型參與PK,第一名是gemini-3-pro,第二名則是大陸的騰訊混元3.0。
在視覺能力排行榜上,也有56萬人次參與投票,第一名是gemini-3-pro,第二名也是Google他們家的gemini-2.5-pro
在文字轉影片排行榜,前兩名都是Google,分別是Veo 3.1,及Veo 3.1 Fast。
然後看到很流行的影像轉影片,在排行榜上前兩名都是Google,分別是Veo 3.1,及Veo 3.1 Fast。
再看大家關心的AI搜尋能力排行榜中,grok-4-fast-search第一名,第二名是 Perplexity Sonar Pro。
在寫網頁程式的能力上,共有16個模型參賽,Gemini 3.0 Pro 排名第一,gpt-5.1-medium 第二
台灣人最應該關心的,應該是誰的中文能力最強,來,我公布一下。第一名又是 Google 的 gemini-3-pro,第二名呢,則是xAI 的 grok-4.1-thinking,第三名是grok-4.1
另外,我覺得大家可能忽略,但是我認為非常重要的指標是創意寫作能力,也就是比,誰能夠精準掌握語言細節,同時理解不同文化背景中的語意脈絡,那是不是很重要呢?想知道誰的表現最好嗎?在66萬人次的投票見證下,榜首又是gemini-3-pro,第二名呢?就是他弟弟gemini-2.5-pro,第三名呢,則是xAI 的 grok-4.1-thinking
大家有沒有發現,好像都沒聽到ChatGPT,對不對?那就表示在每一個單項競賽中,他的表現都不是頂尖,我給大家整理一下,他目前表現最好的是哪幾項喔
在網頁程式寫作上,GPT5.1 排名第二;在文字綜合能力、視覺能力、文字轉影像的能力上,GPT5.1 都是排名第四;在中文能力排名第五,在創意寫作上,GPT 5.1排名第十。
這樣的評測是不是很有趣,也希望大家就此知道到底該怎麼理解這些AI模型的能力了吧





























