2025 年 5 月,LMArena 完成 1 億美元種子輪融資,估值 6 億美元
八個月後,又拿了 1.5 億美元
估值翻了將近三倍,來到 17 億美元
LMArena在做的事情很簡單
就是讓使用者投票決定哪個 AI 比較好,沒了
幾乎每個在追AI模型的人都聽過這家公司
甚至新模型還會等 LMArena 的評價再決定要不要用
搞得跟電影的爛番茄一樣
不過這裡有一個根本性的問題
當 AI 的能力可能已經超越普通人的認知範圍
讓一群普通人投票決定「最好的 AI」有意義嗎?
LMArena 是什麼
在回答這個問題之前,先來看看 LMArena 到底在做什麼
LMArena 的前身叫 Chatbot Arena
2023 年 5 月從 UC Berkeley 的 Sky Computing Lab 誕生
創辦人有三位:
Anastasios Angelopoulos 和 Wei-Lin Chiang 是博士生
Ion Stoica 則是他們的教授
Ion Stoica 這個名字你可能不熟
但他創辦過的公司你一定聽過:Databricks 和 Anyscale
這兩家都是把學術研究商業化的成功案例
LMArena 走的是同一條路
平台的運作方式很簡單:
你輸入一個問題,兩個匿名 AI 各給一個回答,你投票選比較好的那個
聽起來很公平對吧?
這個機制讓 LMArena 在短短兩年內累積了:
- 500 萬月活躍用戶
- 350 萬次投票
- 測試超過 400 個模型
OpenAI、Google、Anthropic、Meta 都在用它來測試新模型
2025 年 5 月:LMArena 宣布轉型成營利公司,拿到 a16z 和 UC Investments 領投的 1 億美元
2026 年 1 月:又拿了 1.5 億美元,估值達到 17 億美元
一個讓使用者投票的網站,憑什麼值 17 億?
因為它掌握了 AI 產業最稀缺的東西:公正的第三方評測
但問題是,它真的公正嗎?
民主制度的缺陷
《人類大歷史》的作者哈拉瑞
曾在書中將政治體制理解成「資料處理系統」
將決策權分配給許多個人與組織
民主和資本主義之所以擊敗法西斯和共產主義
是因為民主在處理資料和做出決策方面更有效率
但有些事情不應該用投票決定
比方說你會讓飛機上的乘客投票決定飛機該停在哪個跑道嗎?
同樣的道理,針對專業性問題,票數比較多的就比較正確嗎?
除了投票機制的缺陷以外
LMArena也有系統上的問題
機構的指控
2025 年 4 月,一篇 68 頁的研究論文《The Leaderboard Illusion》正式引爆了對 LMArena 的質疑
這篇論文來自 Cohere Labs、AI2、Princeton、Stanford 等機構的研究者
裡面的指控很具體
第一個問題:大公司可以「刷榜」
研究者發現,Meta 在發布 Llama-4 之前,私下測試了 27 個不同的模型變體
27 個
然後只公布分數最高的那個版本
這就像考試可以考 27 次,只算最高分那次
Cohere 團隊在提交自家的開源模型 Aya Expanse 時發現
他們的模型被抽到的機率明顯低於那些大公司的專有模型
他們去問 LMArena,才發現原來某些供應商可以私下測試多個版本
而這個「特權」只有少數大公司知道
第二個問題:Sloptimization
這個詞是「slop」(低品質內容)加上「optimization」(優化)的組合
意思是:模型不是在變強,是在學會討好投票者
最經典的案例是 Meta 的 Llama-4-Maverick
有一個版本被微調成回答又長又囉唆,還塞滿 emoji
結果呢?Arena 排名第二
後來 Meta 換成「正常版」的 Llama-4-Maverick
排名直接掉到第 32 名
使用者喜歡長篇大論、喜歡 emoji、喜歡看起來很有禮貌的回答
就算那個回答邏輯有問題,只要「感覺」比較好,就會拿到票
第三個問題:Goodhart's Law
經濟學有一條定律叫古德哈特定律:
當指標成為目標,它就不再是好指標
LMArena 本來是用來「測量」AI 能力的工具
但當它變成 AI 公司的行銷戰場,模型就開始針對這個指標「應試」
這跟 LeetCode 刷題是一樣的道理
工程師刷 LeetCode 是為了通過面試,不是為了真的會寫程式
很多人 LeetCode 刷了幾百題,到了工作現場還是不會解決實際問題
(你可以想一下你身邊有沒有這種人)
現在 AI 模型也在做一樣的事:優化 Arena 分數,而不是優化真正解決問題的能力
Arena問題這麼多,那有其他替代方案嗎?
有,LMArena 最大的競爭對手 Scale AI
Scale AI 是全球最大的 AI 數據標註公司
2016 年創立,估值已經達到 290 億美元
Scale AI 的評測方法跟 LMArena 完全相反
LMArena 用 500 萬個普通人投票
Scale AI 花大錢請專家來評分——律師、教授、醫生、博士級的研究員,時薪 30 到 60 美元
2025 年 9 月,Scale AI 直接推出一個叫「Seal Showdown」的平台,公開挑戰 LMArena
它們的說法是:專家評測比群眾投票更嚴謹、更準確,能避免「slop」的干擾
聽起來好像解決了投票的問題
但還有另外一個的問題
歷史上有太多「公正第三方」最後變成橡皮圖章的案例
2008 金融海嘯:信用評級機構的崩壞
2008 年金融海嘯之前,穆迪(Moody's)和標準普爾(S&P)是全球最權威的信用評級機構
它們說這個債券是 AAA 等級
投資人就相信這個債券跟美國國債一樣安全
結果呢?
它們把一堆塞滿次級房貸的垃圾債券評成 AAA
為什麼?
因為付錢請它們評級的,就是那些發行債券的銀行
銀行付錢,評級機構給高分,投資人買單,皆大歡喜
直到泡沫破掉
金融海嘯後,穆迪被罰了 8.64 億美元,標準普爾付了 15 億美元和解金
但錢已經賠掉了,退休金已經蒸發了,很多人的人生已經被毀了
安隆案:分析師的集體沉默
2001 年安隆破產,是當時美國史上最大的企業醜聞
但你知道嗎?
在安隆破產前八個月,華爾街分析師還在喊「買進」
摩根大通、花旗、美林這些大投行都貸款給安隆
它們的分析師當然不會說安隆有問題
說了,自己的公司就要認列虧損
所以他們選擇閉嘴
散戶繼續買,股價繼續撐,直到撐不住為止
最後投行們總共損失超過 250 億美元
但在那之前,散戶已經先賠光了
當評測者的利益與被評測者綁定,評測就會失真
LMArena 的客戶是誰?OpenAI、Google、Meta、Anthropic
LMArena 評測的對象是誰?OpenAI、Google、Meta、Anthropic
如果 OpenAI 是你的大客戶,你敢給它的模型低分嗎?
當裁判的薪水是選手付的,你怎麼期待比賽公平?
Scale AI的客戶包括 OpenAI、Google、Meta、Microsoft
跟 LMArena 的客戶名單幾乎一模一樣
更有趣的是
2025 年 6 月,Meta 直接投資了 Scale AI 143 億美元,拿下 49% 股份
Scale AI 的創辦人 Alexandr Wang 跳槽去 Meta 當首席 AI 官
所以 Scale AI 的「專家評測」就比較公正嗎?
它的老闆現在在 Meta 上班
它的大股東是 Meta
然後它要來評測 Meta 的模型表現
回到最根本的問題
人類能評價 AI 嗎?
LOL 段位的啟示
英雄聯盟的段位有一個特性
金牌玩家可以輕鬆分辨銅牌和銀牌的差距
但金牌玩家分不出白金和鑽石的差距
這兩個都比他強,他只知道「打不過」,但分不清楚誰更強、強在哪裡
這就是為什麼看電競比賽的時候
觀眾席總會出現「你為什麼不這麼打」「這場我來打的話會怎樣」的錯覺
白曼巴
Brian Scalabrine 在 NBA 打了 11 年,場均只有 3.1 分
球迷嘲笑他是「板凳王」,說他只是運氣好才能待在聯盟裡
2013 年退休後,他在波士頓辦了一場公開挑戰賽,讓任何人都可以來單挑他
結果他橫掃所有挑戰者
那些在網路上嘴他的人,上場連他的邊都碰不到
然後他說了那句話:
"I'm closer to LeBron than you are to me."
我離 LeBron 的距離,比你離我的距離還近
AI 能力導致的悖論
同樣的道理,AI 的能力正在快速提升
區分 GPT-3.5 和 GPT-4 的差距很容易
你可以明顯感覺到一個比較笨、一個比較聰明
但 GPT-5 和 Claude 4.5 和 Gemini 3 的差距呢?
當 AI 的能力超越普通人的認知範圍
讓普通人來投票選出「最好的 AI」
本身就是一個悖論
你只能評價「看起來」比較強的東西
而「看起來強」和「真的強」,是兩回事
結論
整段分析下來,給我自己的結論有三個
- 不要盲信排行榜 LMArena 的分數反映的是「使用者偏好」,不是「模型能力」。討喜的 AI 不一定是最強的 AI
- 記得這些公司也有利益衝突 不管是 LMArena 還是 Scale AI,都有利益衝突和認知盲點
- 人無法評價超越自己認知的東西 做出來的評價自然無法公正客觀
製作 LLM 很難,評價 LLM 更難






















