即時精選

LMArena到底是什麼?誰是當今第一名的AI?

更新 發佈閱讀 5 分鐘

11/17 那一天xAI 宣布他們家的 Grok 4.1 Thinking 在 LMArena 的評測上遙遙領先 Google 的 Gemini 2.5 Pro,穩居榜首。結果隔天,也就是 11/18 Google 就宣布,他們家的新模型 Gemini 3 Pro 已經再次超車,在 LMArena 的評測上創下綜合能力評估的新紀錄,重新拿回過去蟬聯六個月的榜首,而且在多個面向遙遙領先其他家。這就等於 Grok 4.1 只做了一天的 AI 天下第一王位,然後就又被 Google 趕下台,擠到凸台的第二位去了。

到底 LMArena 是一個什麼樣的評測呢,大家為何都會以在這個榜單上的成績拿出來說嘴呢?LMArena 有哪些有趣的評測項目?又是如何讓超過一千九百萬人次上去盲測評分,找出大家最喜歡的AI呢?今天讓楊老師來跟你好好講一下。

LMArena 是一個由加州大學柏克萊分校團隊所主導開發的一個開源線上平台,他的目的是要讓我們可以用公平客觀的方式,進去測試和比較各個送測的大型AI模型。使用者可以免費使用 LMArena 上的各種最新模型,去跟他們聊天、生成圖片或影片,條件是要參與使用後的投票表決。

楊老師AI365 LMArena到底是什麼?為什麼AI大廠都以他為標竿?

楊老師AI365 LMArena到底是什麼?為什麼AI大廠都以他為標竿?


每次系統都會隨機安排兩個AI模型來回答你的問題,滿足你的需求。完成之後,你再從中選出表現比較好的那一個模型,然後系統就會揭開謎底,告訴你剛剛為你服務的是哪一個模型,這是不是很有趣。

所以,我們可以說 LMArena 的機制就像是「盲測」一樣,很公平、不可能作弊,這樣子累積夠多的使用者測試結果之後,我們就可以知道,到底誰是目前表現最好的大語言模型。

楊老師覺得這個平台很有趣,他就跟十項全能的競技比賽一樣,你進去之後可以看每一項的即時更新,每天都會有名次上的變化,隨時可以上去看看現在是誰是各單項的世界冠軍。

剛剛我進去看,幫大家做了一個統計喔,這是截至目前為止,今天的世界排名:

在圖像編輯的排行榜上,有爆量的1980萬人次參與投票,17個模型參賽,Google Gemini 3.0 Pro,也就是我們熟知的奈米香蕉Pro版模型 排名第一,第二名也是Google,是奈米香蕉的前一個版本,在台灣掀起P圖熱潮的Google Gemini 2.5 Flash,奈米香蕉第一版。

在文字能力排行榜上,有累積約460萬人次參與投票,在273個大語言模型中,Google Gemini 3.0 Pro 排名第一,Grok 4.1 思考模式緊接在後。

如果是文字轉圖形的排名賽,也有350萬人次投票,30個模型參與PK,第一名是gemini-3-pro,第二名則是大陸的騰訊混元3.0。

在視覺能力排行榜上,也有56萬人次參與投票,第一名是gemini-3-pro,第二名也是Google他們家的gemini-2.5-pro

在文字轉影片排行榜,前兩名都是Google,分別是Veo 3.1,及Veo 3.1 Fast。

然後看到很流行的影像轉影片,在排行榜上前兩名都是Google,分別是Veo 3.1,及Veo 3.1 Fast。

再看大家關心的AI搜尋能力排行榜中,grok-4-fast-search第一名,第二名是 Perplexity Sonar Pro。

在寫網頁程式的能力上,共有16個模型參賽,Gemini 3.0 Pro 排名第一,gpt-5.1-medium 第二

台灣人最應該關心的,應該是誰的中文能力最強,來,我公布一下。第一名又是 Google 的 gemini-3-pro,第二名呢,則是xAI 的 grok-4.1-thinking,第三名是grok-4.1

另外,我覺得大家可能忽略,但是我認為非常重要的指標是創意寫作能力,也就是比,誰能夠精準掌握語言細節,同時理解不同文化背景中的語意脈絡,那是不是很重要呢?想知道誰的表現最好嗎?在66萬人次的投票見證下,榜首又是gemini-3-pro,第二名呢?就是他弟弟gemini-2.5-pro,第三名呢,則是xAI 的 grok-4.1-thinking

大家有沒有發現,好像都沒聽到ChatGPT,對不對?那就表示在每一個單項競賽中,他的表現都不是頂尖,我給大家整理一下,他目前表現最好的是哪幾項喔

在網頁程式寫作上,GPT5.1 排名第二;在文字綜合能力、視覺能力、文字轉影像的能力上,GPT5.1 都是排名第四;在中文能力排名第五,在創意寫作上,GPT 5.1排名第十。

這樣的評測是不是很有趣,也希望大家就此知道到底該怎麼理解這些AI模型的能力了吧


留言
avatar-img
留言分享你的想法!
avatar-img
楊老師AI365 | 生成式AI職場應用
74會員
48內容數
歡迎來到楊老師的生成式AI沙龍!這裡輕鬆帶你掌握GenAI的基礎概念,透過生活化案例幫助你了解AI如何影響工作與創造價值。我也會分享多年教學與輔導經驗,帶你掌握AI國際認證的考試技巧與學習心法。更重要的是,從教育、美容、製造、銷售等百工百業出發,帶你一步步認識各行各業如何實際導入AI,成為這波數位轉型浪潮中的領航者!
2025/11/21
Anthropic因極度重視AI安全與國安風險,擴大禁止中國等威權國家使用其Claude模型,以防被用於「知識蒸餾」。知識蒸餾能讓小模型快速複製大模型的邏輯與能力,成為國安風險。小模型雖不如老師模型全面,但在特定任務上表現優秀且成本低,。對Anthropic而言,蒸餾已是政治問題而非單純技術。
Thumbnail
2025/11/21
Anthropic因極度重視AI安全與國安風險,擴大禁止中國等威權國家使用其Claude模型,以防被用於「知識蒸餾」。知識蒸餾能讓小模型快速複製大模型的邏輯與能力,成為國安風險。小模型雖不如老師模型全面,但在特定任務上表現優秀且成本低,。對Anthropic而言,蒸餾已是政治問題而非單純技術。
Thumbnail
2025/11/20
今天楊老師帶領AI專案管理班實作Make平台流程自動化,串接Gemini AI、RSS與Notion。並有蛋糕慶生小插曲。李杰同學分享Vibe Coding經驗,指導學員用Gemini生成程式碼部署至Netlify建置網站。本文介紹Netlify優勢,鼓勵實作。最後由品辰同學彈唱《思想起》精彩收尾。
Thumbnail
2025/11/20
今天楊老師帶領AI專案管理班實作Make平台流程自動化,串接Gemini AI、RSS與Notion。並有蛋糕慶生小插曲。李杰同學分享Vibe Coding經驗,指導學員用Gemini生成程式碼部署至Netlify建置網站。本文介紹Netlify優勢,鼓勵實作。最後由品辰同學彈唱《思想起》精彩收尾。
Thumbnail
2025/11/19
昨晚,Cloudflare全球性故障造成許多服務無法存取的事件。楊老師解釋Cloudflare提供DNS、CDN及資安服務,是網路的關鍵角色,其單點故障凸顯了「集中化風險」。為提升數位韌性,楊老師建議,重要資料備份,發生問題時保持冷靜並判斷故障範圍;在慌亂時警惕假冒官方的釣魚連結,避免帳號密碼被竊。
Thumbnail
2025/11/19
昨晚,Cloudflare全球性故障造成許多服務無法存取的事件。楊老師解釋Cloudflare提供DNS、CDN及資安服務,是網路的關鍵角色,其單點故障凸顯了「集中化風險」。為提升數位韌性,楊老師建議,重要資料備份,發生問題時保持冷靜並判斷故障範圍;在慌亂時警惕假冒官方的釣魚連結,避免帳號密碼被竊。
Thumbnail
看更多
你可能也想看
Thumbnail
臺灣獨立調香師品牌 Sunkronizo,Friday : Sexy Vibe 淡香精,揉合威士忌、菸草、皮革、蜂蜜與花香的多層次魅力,讓知性自信與內斂的從容態度,從視覺、嗅覺都充分表現。
Thumbnail
臺灣獨立調香師品牌 Sunkronizo,Friday : Sexy Vibe 淡香精,揉合威士忌、菸草、皮革、蜂蜜與花香的多層次魅力,讓知性自信與內斂的從容態度,從視覺、嗅覺都充分表現。
Thumbnail
使台劇得以突破過往印象中偶像劇、鄉土劇等範疇,產製更多類型,甚至紅到國外、帶動台灣觀光的最重要原因,便是「隨選串流平台」服務在近十年的蓬勃發展,台灣人愛看串流的程度或許比你我想像中都高,高到連美國電影協會(MPA),都委託Frontier Economics進行研究
Thumbnail
使台劇得以突破過往印象中偶像劇、鄉土劇等範疇,產製更多類型,甚至紅到國外、帶動台灣觀光的最重要原因,便是「隨選串流平台」服務在近十年的蓬勃發展,台灣人愛看串流的程度或許比你我想像中都高,高到連美國電影協會(MPA),都委託Frontier Economics進行研究
Thumbnail
本文探討串流平臺(VOD)如何徹底改變好萊塢和臺灣影視產業的生態。從美國電影協會(MPA)的數據報告,揭示串流服務在臺灣的驚人普及率與在地內容的消費趨勢。文章分析國際作品如何透過在地化元素開拓新市場。同時,作者也擔憂政府過度監管可能扼殺臺灣影視創新自由,以越南為鑑,呼籲以開放態度擁抱串流時代的新機遇
Thumbnail
本文探討串流平臺(VOD)如何徹底改變好萊塢和臺灣影視產業的生態。從美國電影協會(MPA)的數據報告,揭示串流服務在臺灣的驚人普及率與在地內容的消費趨勢。文章分析國際作品如何透過在地化元素開拓新市場。同時,作者也擔憂政府過度監管可能扼殺臺灣影視創新自由,以越南為鑑,呼籲以開放態度擁抱串流時代的新機遇
Thumbnail
在AI領域的競爭中,Meta再次展現了其不可忽視的實力。Mark Zuckerberg的公司最近發布了他們迄今為止最強大的大型語言模型 Llama 3.1,這不僅是免費的,而且還可以說是開源的。這一舉動無疑將在AI界掀起巨浪,但它真的能與OpenAI和Google等巨頭抗衡嗎?讓我們一起深入探討
Thumbnail
在AI領域的競爭中,Meta再次展現了其不可忽視的實力。Mark Zuckerberg的公司最近發布了他們迄今為止最強大的大型語言模型 Llama 3.1,這不僅是免費的,而且還可以說是開源的。這一舉動無疑將在AI界掀起巨浪,但它真的能與OpenAI和Google等巨頭抗衡嗎?讓我們一起深入探討
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News