
AI近年來的發展令人驚嘆,從寫作、翻譯,到程式設計、醫學諮詢,許多 AI 模型已展現出超越人類水準的表現。我們該如何量化、比較、甚至真正理解 AI 的智力?如果說,20 世紀的智商(IQ)測驗是人類試圖捕捉大腦能力的一種方式,那麼 21 世紀的 AI 測評工具,就是科技界評估人工智能的智商考試。然而,AI 的智力,遠比人類智商複雜。AI 並不具備真正的理解、意識或常識,但它們卻能在特定任務中展現令人難以置信的計算與推理能力。因此,專業、嚴謹且持續演進的智力評估工具,成為整個 AI 產業的重要基礎。
MMLU:AI 智力排名的學科考試
面對衡量 AI 智力的需求,MMLU(Massive Multitask Language Understanding) 應運而生。這個由 UC Berkeley、Stanford、AI21 Labs 等機構於 2021 年提出的測試,迅速成為評比大型語言模型(LLM)的國際標準。MMLU 的設計類似學校考試,涵蓋 57 個領域,從醫學、法律、歷史,到數學、物理、電腦科學。每個領域題目都為多選題,結合專業知識與推理能力,全面檢驗 AI 的語言理解與跨領域整合實力。自 MMLU 推出後,科技巨頭紛紛將旗下最強模型送上比試擂台:
- OpenAI o1:約 90.5 %
- DeepSeek-R1:約 90.8 %
- Grok‑3:約92.7 %(存在爭議)
- Claude 3.5 Sonnet:約 88 %
除了總分,許多「特殊題型」也反映出不同 AI 模型的獨特優勢:
- DeepSeek-R1:在中文醫學、法律等專業題目中領先,特別適合中文多領域知識整合
- Grok-3:在複雜數學推理、符號邏輯、Python 程式生成中表現突出,適合處理演算法、程式設計任務
- Claude 3.5:擅長思維鏈推理,能清晰列出推理步驟,便於人類理解 AI 的思考邏輯
這些差異顯示,單純用總分評斷 AI 智力並不全面,實際應用場景才是關鍵。
AI 智力,無止盡的競賽
AI 智力測試,如同科技界的馬拉松,沒有終點,只有不斷推進的標準與挑戰。MMLU、MMLU‑Pro(進階、困難版多選題,更考驗推理深度)、Humanity's Last Exam(跨領域開放推理挑戰,測試泛化與創造性) 等工具,雖無法全面定義 AI 的智商,卻是觀察技術發展的重要窗口。
邊喝邊想,我們會聊聊酒、聊聊神話,也聊聊這個世界。