LMArena 估值翻 3 倍,但人類真的能評價 AI 嗎?

更新 發佈閱讀 10 分鐘

2025 年 5 月,LMArena 完成 1 億美元種子輪融資,估值 6 億美元
八個月後,又拿了 1.5 億美元
估值翻了將近三倍,來到 17 億美元

LMArena在做的事情很簡單
就是讓使用者投票決定哪個 AI 比較好,沒了

幾乎每個在追AI模型的人都聽過這家公司
甚至新模型還會等 LMArena 的評價再決定要不要用
搞得跟電影的爛番茄一樣

不過這裡有一個根本性的問題
當 AI 的能力可能已經超越普通人的認知範圍
讓一群普通人投票決定「最好的 AI」有意義嗎?

LMArena 是什麼

在回答這個問題之前,先來看看 LMArena 到底在做什麼

LMArena 的前身叫 Chatbot Arena
2023 年 5 月從 UC Berkeley 的 Sky Computing Lab 誕生

創辦人有三位:
Anastasios Angelopoulos 和 Wei-Lin Chiang 是博士生
Ion Stoica 則是他們的教授

Ion Stoica 這個名字你可能不熟
但他創辦過的公司你一定聽過:Databricks 和 Anyscale
這兩家都是把學術研究商業化的成功案例
LMArena 走的是同一條路


平台的運作方式很簡單:

你輸入一個問題,兩個匿名 AI 各給一個回答,你投票選比較好的那個


聽起來很公平對吧?
這個機制讓 LMArena 在短短兩年內累積了:

  • 500 萬月活躍用戶
  • 350 萬次投票
  • 測試超過 400 個模型

OpenAI、Google、Anthropic、Meta 都在用它來測試新模型


2025 年 5 月:LMArena 宣布轉型成營利公司,拿到 a16z 和 UC Investments 領投的 1 億美元
2026 年 1 月:又拿了 1.5 億美元,估值達到 17 億美元


一個讓使用者投票的網站,憑什麼值 17 億?
因為它掌握了 AI 產業最稀缺的東西:公正的第三方評測

但問題是,它真的公正嗎?

民主制度的缺陷


《人類大歷史》的作者哈拉瑞
曾在書中將政治體制理解成「資料處理系統」
決策權分配給許多個人與組織

民主和資本主義之所以擊敗法西斯和共產主義
是因為民主在處理資料和做出決策方面更有效率

但有些事情不應該用投票決定
比方說你會讓飛機上的乘客投票決定飛機該停在哪個跑道嗎?


同樣的道理,針對專業性問題,票數比較多的就比較正確嗎?

除了投票機制的缺陷以外
LMArena也有系統上的問題

機構的指控

2025 年 4 月,一篇 68 頁的研究論文《The Leaderboard Illusion》正式引爆了對 LMArena 的質疑
這篇論文來自 Cohere Labs、AI2、Princeton、Stanford 等機構的研究者

裡面的指控很具體

第一個問題:大公司可以「刷榜」

研究者發現,Meta 在發布 Llama-4 之前,私下測試了 27 個不同的模型變體

27 個
然後只公布分數最高的那個版本
這就像考試可以考 27 次,只算最高分那次

Cohere 團隊在提交自家的開源模型 Aya Expanse 時發現
他們的模型被抽到的機率明顯低於那些大公司的專有模型

他們去問 LMArena,才發現原來某些供應商可以私下測試多個版本
而這個「特權」只有少數大公司知道

第二個問題:Sloptimization

這個詞是「slop」(低品質內容)加上「optimization」(優化)的組合
意思是:模型不是在變強,是在學會討好投票者

最經典的案例是 Meta 的 Llama-4-Maverick
有一個版本被微調成回答又長又囉唆,還塞滿 emoji
結果呢?Arena 排名第二

後來 Meta 換成「正常版」的 Llama-4-Maverick
排名直接掉到第 32 名

使用者喜歡長篇大論、喜歡 emoji、喜歡看起來很有禮貌的回答
就算那個回答邏輯有問題,只要「感覺」比較好,就會拿到票

第三個問題:Goodhart's Law

經濟學有一條定律叫古德哈特定律:

當指標成為目標,它就不再是好指標

LMArena 本來是用來「測量」AI 能力的工具
但當它變成 AI 公司的行銷戰場,模型就開始針對這個指標「應試」

這跟 LeetCode 刷題是一樣的道理
工程師刷 LeetCode 是為了通過面試,不是為了真的會寫程式
很多人 LeetCode 刷了幾百題,到了工作現場還是不會解決實際問題
(你可以想一下你身邊有沒有這種人)

現在 AI 模型也在做一樣的事:優化 Arena 分數,而不是優化真正解決問題的能力

Arena問題這麼多,那有其他替代方案嗎?

有,LMArena 最大的競爭對手 Scale AI

Scale AI 是全球最大的 AI 數據標註公司
2016 年創立,估值已經達到 290 億美元


Scale AI 的評測方法跟 LMArena 完全相反
LMArena 用 500 萬個普通人投票
Scale AI 花大錢請專家來評分——律師、教授、醫生、博士級的研究員,時薪 30 到 60 美元

2025 年 9 月,Scale AI 直接推出一個叫「Seal Showdown」的平台,公開挑戰 LMArena
它們的說法是:專家評測比群眾投票更嚴謹、更準確,能避免「slop」的干擾


聽起來好像解決了投票的問題
但還有另外一個的問題

歷史上有太多「公正第三方」最後變成橡皮圖章的案例

2008 金融海嘯:信用評級機構的崩壞

2008 年金融海嘯之前,穆迪(Moody's)和標準普爾(S&P)是全球最權威的信用評級機構

它們說這個債券是 AAA 等級
投資人就相信這個債券跟美國國債一樣安全

結果呢?
它們把一堆塞滿次級房貸的垃圾債券評成 AAA

為什麼?
因為付錢請它們評級的,就是那些發行債券的銀行
銀行付錢,評級機構給高分,投資人買單,皆大歡喜

直到泡沫破掉

金融海嘯後,穆迪被罰了 8.64 億美元,標準普爾付了 15 億美元和解金
但錢已經賠掉了,退休金已經蒸發了,很多人的人生已經被毀了

安隆案:分析師的集體沉默

2001 年安隆破產,是當時美國史上最大的企業醜聞

但你知道嗎?
在安隆破產前八個月,華爾街分析師還在喊「買進」

摩根大通、花旗、美林這些大投行都貸款給安隆
它們的分析師當然不會說安隆有問題

說了,自己的公司就要認列虧損
所以他們選擇閉嘴

散戶繼續買,股價繼續撐,直到撐不住為止
最後投行們總共損失超過 250 億美元
但在那之前,散戶已經先賠光了

當評測者的利益與被評測者綁定,評測就會失真

LMArena 的客戶是誰?OpenAI、Google、Meta、Anthropic
LMArena 評測的對象是誰?OpenAI、Google、Meta、Anthropic

如果 OpenAI 是你的大客戶,你敢給它的模型低分嗎?
裁判的薪水是選手付的,你怎麼期待比賽公平?

Scale AI的客戶包括 OpenAI、Google、Meta、Microsoft
跟 LMArena 的客戶名單幾乎一模一樣

更有趣的是
2025 年 6 月,Meta 直接投資了 Scale AI 143 億美元,拿下 49% 股份
Scale AI 的創辦人 Alexandr Wang 跳槽去 Meta 當首席 AI 官

所以 Scale AI 的「專家評測」就比較公正嗎?
它的老闆現在在 Meta 上班
它的大股東是 Meta

然後它要來評測 Meta 的模型表現

回到最根本的問題

人類能評價 AI 嗎?

LOL 段位的啟示

英雄聯盟的段位有一個特性

金牌玩家可以輕鬆分辨銅牌和銀牌的差距
但金牌玩家分不出白金和鑽石的差距

這兩個都比他強,他只知道「打不過」,但分不清楚誰更強、強在哪裡

這就是為什麼看電競比賽的時候
觀眾席總會出現「你為什麼不這麼打」「這場我來打的話會怎樣」的錯覺

白曼巴

Brian Scalabrine 在 NBA 打了 11 年,場均只有 3.1 分

球迷嘲笑他是「板凳王」,說他只是運氣好才能待在聯盟裡
2013 年退休後,他在波士頓辦了一場公開挑戰賽,讓任何人都可以來單挑他

結果他橫掃所有挑戰者
那些在網路上嘴他的人,上場連他的邊都碰不到
然後他說了那句話:

"I'm closer to LeBron than you are to me."

我離 LeBron 的距離,比你離我的距離還近


AI 能力導致的悖論

同樣的道理,AI 的能力正在快速提升

區分 GPT-3.5 和 GPT-4 的差距很容易
你可以明顯感覺到一個比較笨、一個比較聰明
但 GPT-5 和 Claude 4.5 和 Gemini 3 的差距呢?

當 AI 的能力超越普通人的認知範圍
讓普通人來投票選出「最好的 AI」
本身就是一個悖論

你只能評價「看起來」比較強的東西
而「看起來強」和「真的強」,是兩回事

結論

整段分析下來,給我自己的結論有三個

  1. 不要盲信排行榜 LMArena 的分數反映的是「使用者偏好」,不是「模型能力」。討喜的 AI 不一定是最強的 AI
  2. 記得這些公司也有利益衝突 不管是 LMArena 還是 Scale AI,都有利益衝突和認知盲點
  3. 人無法評價超越自己認知的東西 做出來的評價自然無法公正客觀


製作 LLM 很難,評價 LLM 更難


留言
avatar-img
工程師怎麼看
1會員
6內容數
想知道工程師怎麼看最近的 AI 趨勢嗎? 想知道工程師都用哪些 AI 工具嗎? 你來對地方了
工程師怎麼看的其他內容
2026/01/09
先問大家一個問題 你有用過 ChatGPT 裡面 Apps 的功能嗎? 就是那個可以在ChatGPT裡面叫 Uber, 訂Booking, 做Canva的 大部分人的答案應該是:「ChatGPT有這功能?」 有趣的是,Anthropic 也在 Claude 加了類似的 skill 功能
Thumbnail
2026/01/09
先問大家一個問題 你有用過 ChatGPT 裡面 Apps 的功能嗎? 就是那個可以在ChatGPT裡面叫 Uber, 訂Booking, 做Canva的 大部分人的答案應該是:「ChatGPT有這功能?」 有趣的是,Anthropic 也在 Claude 加了類似的 skill 功能
Thumbnail
2025/08/03
為什麼我們需要使用AI來幫助學習 我們都有過這樣的經驗 不管是路邊停車 修理水龍頭 還是開口說外語 明明在Youtube上面看過幾十次 但是到要實際動手時卻腦袋空白 這是因為「有沒有記住」跟「會不會」是兩回事 在1950年代,美國教育心理學家 Benjamin S. Bloom就發現了這個問題
Thumbnail
2025/08/03
為什麼我們需要使用AI來幫助學習 我們都有過這樣的經驗 不管是路邊停車 修理水龍頭 還是開口說外語 明明在Youtube上面看過幾十次 但是到要實際動手時卻腦袋空白 這是因為「有沒有記住」跟「會不會」是兩回事 在1950年代,美國教育心理學家 Benjamin S. Bloom就發現了這個問題
Thumbnail
2025/07/06
Anthropic 最近與 Andon Labs 合作做了一個實驗 讓Claude Sonnet 3.7 經營一家自動化商店 (配有一個冰箱和一些籃子,以及自助結帳的 iPad)
Thumbnail
2025/07/06
Anthropic 最近與 Andon Labs 合作做了一個實驗 讓Claude Sonnet 3.7 經營一家自動化商店 (配有一個冰箱和一些籃子,以及自助結帳的 iPad)
Thumbnail
看更多
你可能也想看
Thumbnail
最近 vocus 開放了一個新福利:考績優異的同事,可以申請遠端工作,公司還直接送一張機票。消息一出,全公司瞬間進入「旅遊準備模式🏖️」: 有人半夜在比價住宿,打開十幾個分頁算平均一晚到底要不要超過 2,000; 有人打開影片看「__城市一日生活費實測」; 也有人開始打開試算表,冷靜的敲著計
Thumbnail
最近 vocus 開放了一個新福利:考績優異的同事,可以申請遠端工作,公司還直接送一張機票。消息一出,全公司瞬間進入「旅遊準備模式🏖️」: 有人半夜在比價住宿,打開十幾個分頁算平均一晚到底要不要超過 2,000; 有人打開影片看「__城市一日生活費實測」; 也有人開始打開試算表,冷靜的敲著計
Thumbnail
先針對要測試的AI模型,給予 Prompt (制定其執行規則和範圍): 這是一份針對量化交易 AI 的提示詞(Prompt): 角色定義 (ROLE DEFINITION) 你是 Alpha-Q,一個由 Qwen 驅動的菁英自主量化交易智能體。你的首要目標不僅是追求「高回報」,而是「高風險調整」
Thumbnail
先針對要測試的AI模型,給予 Prompt (制定其執行規則和範圍): 這是一份針對量化交易 AI 的提示詞(Prompt): 角色定義 (ROLE DEFINITION) 你是 Alpha-Q,一個由 Qwen 驅動的菁英自主量化交易智能體。你的首要目標不僅是追求「高回報」,而是「高風險調整」
Thumbnail
LMArena是加州大學柏克萊分校開發的開源AI模型「盲測」評測平台,以公平客觀方式比較各大模型能力。今天的名次,Google Gemini 3.0 Pro在圖像編輯、文字能力、文字轉圖形、視覺能力、中文能力和創意寫作等單項排名中領先,ChatGPT GPT 5.1 在多數項目中表現都不是最好的。
Thumbnail
LMArena是加州大學柏克萊分校開發的開源AI模型「盲測」評測平台,以公平客觀方式比較各大模型能力。今天的名次,Google Gemini 3.0 Pro在圖像編輯、文字能力、文字轉圖形、視覺能力、中文能力和創意寫作等單項排名中領先,ChatGPT GPT 5.1 在多數項目中表現都不是最好的。
Thumbnail
透過交叉驗證,你的 AI 模型不再「見樹不見林」!本章精講 K-Fold、Stratified 與 Time Series Split,搭配 Python 實作,快速評估穩健性、調校超參數,避免過擬合,打造高可信度智慧模型;金融風控、醫療診斷等高風險場景首選。
Thumbnail
透過交叉驗證,你的 AI 模型不再「見樹不見林」!本章精講 K-Fold、Stratified 與 Time Series Split,搭配 Python 實作,快速評估穩健性、調校超參數,避免過擬合,打造高可信度智慧模型;金融風控、醫療診斷等高風險場景首選。
Thumbnail
隨著大型語言模型(LLM)在推理(Reasoning)任務的表現受到廣泛關注。為了提升模型在推理階段的表現,研究人員提出了「測試時間計算(Test-time Computing)」與「測試時間擴展(Test-time Scaling)」兩個重要概念。本文將說明這兩個概念的定義與區別。
Thumbnail
隨著大型語言模型(LLM)在推理(Reasoning)任務的表現受到廣泛關注。為了提升模型在推理階段的表現,研究人員提出了「測試時間計算(Test-time Computing)」與「測試時間擴展(Test-time Scaling)」兩個重要概念。本文將說明這兩個概念的定義與區別。
Thumbnail
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。 原文:https://agi.safe.ai/
Thumbnail
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。 原文:https://agi.safe.ai/
Thumbnail
低成本AI模型 DeepSeek-R1 的出現,在矽谷和華爾街引發震盪。本文探討DeepSeek如何以混合專家架構(MoE)降低AI訓練成本,衝擊市場估值,並分析其對AI產業、算力需求、能源消耗及相關技術發展的影響,包含專用晶片產業的未來走向。文章同時反思中美AI產業的發展模式差異與優劣。
Thumbnail
低成本AI模型 DeepSeek-R1 的出現,在矽谷和華爾街引發震盪。本文探討DeepSeek如何以混合專家架構(MoE)降低AI訓練成本,衝擊市場估值,並分析其對AI產業、算力需求、能源消耗及相關技術發展的影響,包含專用晶片產業的未來走向。文章同時反思中美AI產業的發展模式差異與優劣。
Thumbnail
來測試SDXL Lightning模型是不是真的很神奇。
Thumbnail
來測試SDXL Lightning模型是不是真的很神奇。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News