即時精選

LMArena到底是什麼？誰是當今第一名的AI？

2025/11/22 更新2025/11/22 發佈閱讀 5 分鐘

11/17 那一天xAI 宣布他們家的 Grok 4.1 Thinking 在 LMArena 的評測上遙遙領先 Google 的 Gemini 2.5 Pro，穩居榜首。結果隔天，也就是 11/18 Google 就宣布，他們家的新模型 Gemini 3 Pro 已經再次超車，在 LMArena 的評測上創下綜合能力評估的新紀錄，重新拿回過去蟬聯六個月的榜首，而且在多個面向遙遙領先其他家。這就等於 Grok 4.1 只做了一天的 AI 天下第一王位，然後就又被 Google 趕下台，擠到凸台的第二位去了。

到底 LMArena 是一個什麼樣的評測呢，大家為何都會以在這個榜單上的成績拿出來說嘴呢？LMArena 有哪些有趣的評測項目？又是如何讓超過一千九百萬人次上去盲測評分，找出大家最喜歡的AI呢？今天讓楊老師來跟你好好講一下。

LMArena 是一個由加州大學柏克萊分校團隊所主導開發的一個開源線上平台，他的目的是要讓我們可以用公平客觀的方式，進去測試和比較各個送測的大型AI模型。使用者可以免費使用 LMArena 上的各種最新模型，去跟他們聊天、生成圖片或影片，條件是要參與使用後的投票表決。

楊老師AI365 LMArena到底是什麼？為什麼AI大廠都以他為標竿？

每次系統都會隨機安排兩個AI模型來回答你的問題，滿足你的需求。完成之後，你再從中選出表現比較好的那一個模型，然後系統就會揭開謎底，告訴你剛剛為你服務的是哪一個模型，這是不是很有趣。

所以，我們可以說 LMArena 的機制就像是「盲測」一樣，很公平、不可能作弊，這樣子累積夠多的使用者測試結果之後，我們就可以知道，到底誰是目前表現最好的大語言模型。

楊老師覺得這個平台很有趣，他就跟十項全能的競技比賽一樣，你進去之後可以看每一項的即時更新，每天都會有名次上的變化，隨時可以上去看看現在是誰是各單項的世界冠軍。

剛剛我進去看，幫大家做了一個統計喔，這是截至目前為止，今天的世界排名：

在圖像編輯的排行榜上，有爆量的1980萬人次參與投票，17個模型參賽，Google Gemini 3.0 Pro，也就是我們熟知的奈米香蕉Pro版模型排名第一，第二名也是Google，是奈米香蕉的前一個版本，在台灣掀起P圖熱潮的Google Gemini 2.5 Flash，奈米香蕉第一版。

在文字能力排行榜上，有累積約460萬人次參與投票，在273個大語言模型中，Google Gemini 3.0 Pro 排名第一，Grok 4.1 思考模式緊接在後。

如果是文字轉圖形的排名賽，也有350萬人次投票，30個模型參與PK，第一名是gemini-3-pro，第二名則是大陸的騰訊混元3.0。

在視覺能力排行榜上，也有56萬人次參與投票，第一名是gemini-3-pro，第二名也是Google他們家的gemini-2.5-pro

在文字轉影片排行榜，前兩名都是Google，分別是Veo 3.1，及Veo 3.1 Fast。

然後看到很流行的影像轉影片，在排行榜上前兩名都是Google，分別是Veo 3.1，及Veo 3.1 Fast。

再看大家關心的AI搜尋能力排行榜中，grok-4-fast-search第一名，第二名是 Perplexity Sonar Pro。

在寫網頁程式的能力上，共有16個模型參賽，Gemini 3.0 Pro 排名第一，gpt-5.1-medium 第二

台灣人最應該關心的，應該是誰的中文能力最強，來，我公布一下。第一名又是 Google 的 gemini-3-pro，第二名呢，則是xAI 的 grok-4.1-thinking，第三名是grok-4.1

另外，我覺得大家可能忽略，但是我認為非常重要的指標是創意寫作能力，也就是比，誰能夠精準掌握語言細節，同時理解不同文化背景中的語意脈絡，那是不是很重要呢？想知道誰的表現最好嗎？在66萬人次的投票見證下，榜首又是gemini-3-pro，第二名呢？就是他弟弟gemini-2.5-pro，第三名呢，則是xAI 的 grok-4.1-thinking

大家有沒有發現，好像都沒聽到ChatGPT，對不對？那就表示在每一個單項競賽中，他的表現都不是頂尖，我給大家整理一下，他目前表現最好的是哪幾項喔

在網頁程式寫作上，GPT5.1 排名第二；在文字綜合能力、視覺能力、文字轉影像的能力上，GPT5.1 都是排名第四；在中文能力排名第五，在創意寫作上，GPT 5.1排名第十。

這樣的評測是不是很有趣，也希望大家就此知道到底該怎麼理解這些AI模型的能力了吧

留言

留言分享你的想法！

楊老師AI365 | 生成式AI職場應用

74會員

48內容數

歡迎來到楊老師的生成式AI沙龍！這裡輕鬆帶你掌握GenAI的基礎概念，透過生活化案例幫助你了解AI如何影響工作與創造價值。我也會分享多年教學與輔導經驗，帶你掌握AI國際認證的考試技巧與學習心法。更重要的是，從教育、美容、製造、銷售等百工百業出發，帶你一步步認識各行各業如何實際導入AI，成為這波數位轉型浪潮中的領航者！

楊老師AI365 | 生成式AI職場應用的其他內容

2025/11/21

為什麼Anthropic對「知識蒸餾」這麼敏感

Anthropic因極度重視AI安全與國安風險，擴大禁止中國等威權國家使用其Claude模型，以防被用於「知識蒸餾」。知識蒸餾能讓小模型快速複製大模型的邏輯與能力，成為國安風險。小模型雖不如老師模型全面，但在特定任務上表現優秀且成本低，。對Anthropic而言，蒸餾已是政治問題而非單純技術。

2025/11/21

為什麼Anthropic對「知識蒸餾」這麼敏感

2025/11/20

想不到吧？學生分享Netlify與恆春古調思想起

今天楊老師帶領AI專案管理班實作Make平台流程自動化，串接Gemini AI、RSS與Notion。並有蛋糕慶生小插曲。李杰同學分享Vibe Coding經驗，指導學員用Gemini生成程式碼部署至Netlify建置網站。本文介紹Netlify優勢，鼓勵實作。最後由品辰同學彈唱《思想起》精彩收尾。

2025/11/20

想不到吧？學生分享Netlify與恆春古調思想起

2025/11/19

Cloudflare是幹嘛的，害我不能做作業

昨晚，Cloudflare全球性故障造成許多服務無法存取的事件。楊老師解釋Cloudflare提供DNS、CDN及資安服務，是網路的關鍵角色，其單點故障凸顯了「集中化風險」。為提升數位韌性，楊老師建議，重要資料備份，發生問題時保持冷靜並判斷故障範圍；在慌亂時警惕假冒官方的釣魚連結，避免帳號密碼被竊。

2025/11/19

Cloudflare是幹嘛的，害我不能做作業

看更多

#寫作的其他內容

方格子 ╳ 圓神出版｜我寫故我在，每篇文章都是一場美麗邂逅

目前共 5549 篇

香水百合的情慾日記

香水百合四歲了！方格子歷程分享：從 Tinder 約會記錄，到情慾語音創作經營

知識構築中｜暦のノート

TED演講分享14：創意不怕失敗！找到你的熱愛，就能從任何挫折中站起來

Y.H的第二人生

【星期整聊事｜讓愛的他離開吧】: 有些關係只能留在過去，就讓他離去。

你可能也想看

Life捧烹_王小姐的日常療癒所

氣味同步生活： Sunkronizo淡香精的知性魅力

臺灣獨立調香師品牌 Sunkronizo，Friday : Sexy Vibe 淡香精，揉合威士忌、菸草、皮革、蜂蜜與花香的多層次魅力，讓知性自信與內斂的從容態度，從視覺、嗅覺都充分表現。

#香氛#香水#香水評論

2025/11/25

Life捧烹_王小姐的日常療癒所

氣味同步生活： Sunkronizo淡香精的知性魅力

#香氛#香水#香水評論

2025/11/25

花神沒有咖啡館的沙龍

在VOD黃金時代打造「台流」——隨選串流服務與政策制度、消費行為和演算法的關係

使台劇得以突破過往印象中偶像劇、鄉土劇等範疇，產製更多類型，甚至紅到國外、帶動台灣觀光的最重要原因，便是「隨選串流平台」服務在近十年的蓬勃發展，台灣人愛看串流的程度或許比你我想像中都高，高到連美國電影協會（MPA），都委託Frontier Economics進行研究

#電影產業#全球在地化#串流平台

2025/11/24

花神沒有咖啡館的沙龍

在VOD黃金時代打造「台流」——隨選串流服務與政策制度、消費行為和演算法的關係

#電影產業#全球在地化#串流平台

2025/11/24

月刊龍貓大王通信

進入串流大戰第二階段！台灣影視作品如何透過全球VOD平台對外發聲？這是來自美國電影協會的觀察

本文探討串流平臺（VOD）如何徹底改變好萊塢和臺灣影視產業的生態。從美國電影協會（MPA）的數據報告，揭示串流服務在臺灣的驚人普及率與在地內容的消費趨勢。文章分析國際作品如何透過在地化元素開拓新市場。同時，作者也擔憂政府過度監管可能扼殺臺灣影視創新自由，以越南為鑑，呼籲以開放態度擁抱串流時代的新機遇

#電影產業#全球在地化#串流平台

2025/11/24

月刊龍貓大王通信

進入串流大戰第二階段！台灣影視作品如何透過全球VOD平台對外發聲？這是來自美國電影協會的觀察

#電影產業#全球在地化#串流平台

2025/11/24

悠緣船帆的沙龍

元宇宙巨頭的AI野心：Meta 推出Llama 3.1 模型，挑戰 AI 霸主地位

在AI領域的競爭中，Meta再次展現了其不可忽視的實力。Mark Zuckerberg的公司最近發布了他們迄今為止最強大的大型語言模型 Llama 3.1，這不僅是免費的，而且還可以說是開源的。這一舉動無疑將在AI界掀起巨浪，但它真的能與OpenAI和Google等巨頭抗衡嗎？讓我們一起深入探討

#人工智能#Llama#Meta

2024/07/25

悠緣船帆的沙龍

元宇宙巨頭的AI野心：Meta 推出Llama 3.1 模型，挑戰 AI 霸主地位

#人工智能#Llama#Meta

2024/07/25

窩 World

NotebookLM：Google 結合 AI 最新推出的筆記本工具，讓你生成問題、快速摘要，以及建立專屬知識庫

隨著 AI 技術的進步，Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔，還能幫助你建立專屬知識庫。今天，我將介紹 NotebookLM 是什麼、如何使用它，以及在三種不同情境中的應用方法。

#科技#學習#數位

2024/07/03

窩 World

NotebookLM：Google 結合 AI 最新推出的筆記本工具，讓你生成問題、快速摘要，以及建立專屬知識庫

#科技#學習#數位

2024/07/03

⏳熵妮的沙龍☆

AI 無法回答我全部的問題

AI -Gemini : 我鼓勵你探索自己的答案，並找到讓你感到充實和意義的東西。我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來？” “現在發生的事情的品質如何？” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型，在大量文字和程式碼...

2024/05/24

2024/05/24

Google Gemini 對比 ChatGPT：AI助手評測

這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現，並對比了它們在簡單問題、創作文本和回應短文等方面的效果。

#ChatGPT#AI#人工智慧

2024/04/30

樂子

Google Gemini 對比 ChatGPT：AI助手評測

這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現，並對比了它們在簡單問題、創作文本和回應短文等方面的效果。

#ChatGPT#AI#人工智慧

2024/04/30

大勢男寫手的沙龍

在香港如何使用 Google Gemini？

什麼是 Google Gemini？ Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族，繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布，包括 Gemini Ultra、Pro 和 Nano，旨在超越 OpenAI 的 GPT-4

#AI#科技

2024/04/19

大勢男寫手的沙龍

在香港如何使用 Google Gemini？

#AI#科技

2024/04/19

Everything ✨

全球最強 AI 模型 - Claude 3，ChatGPT 的最強競爭對手

Anthropic推出了新的Claude 3系列模型，號稱打敗OpenAI GPT-4與Google Gemini，成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。

#GPT-4#模型#OpenAI

2024/03/06

Everything ✨

全球最強 AI 模型 - Claude 3，ChatGPT 的最強競爭對手

#GPT-4#模型#OpenAI

2024/03/06

Homeless Cosmopolitans' 實驗沙龍

【科學科技一科燙手報 Mk.2】：Google新發表的開源AI模型Gemma | 燙手度4天

大部分的人都知道Open AI的ChatGPT，部份的人知道Perplexity一類的生成式AI模型，還有一些人知道Google研發的生成式AI模型：Gemini (意思是拉丁文的雙生)。但幾小時前開放給開發者及研究者的開源AI模型Gemma（意思是拉丁文珍貴的石頭）大概沒什麼知道，

#Gemma#Google#AI

2024/02/25

Homeless Cosmopolitans' 實驗沙龍

【科學科技一科燙手報 Mk.2】：Google新發表的開源AI模型Gemma | 燙手度4天

#Gemma#Google#AI

2024/02/25

ACY證券的沙龍

【ACY證券】AI影片生成模型Sora是真實世界模擬器？

隨著AI板塊的爆發，各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手，都想借AI的東風，升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持，始終壓Google一頭。

#ChatGPT#Google#模型

2024/02/20

ACY證券的沙龍

【ACY證券】AI影片生成模型Sora是真實世界模擬器？

#ChatGPT#Google#模型

2024/02/20

手哥科科

Google 發表新 AI 模型 Gemini 1.5，提供更大的「腦容量」和效率

今天 Google 發表了最新的 AI 模型 Gemini 1.5，不只提高模型訓練和服務效率，而且擁有更強大的理解力，每次能處理的 token 長度更是一口氣突破 100 萬大關，是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度)，可以處理更大量的資訊，也擁有更大

#Google#模型#GPT-4

2024/02/17

手哥科科

Google 發表新 AI 模型 Gemini 1.5，提供更大的「腦容量」和效率

#Google#模型#GPT-4

2024/02/17

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News