MMLU,全名是「Massive Multi-task Language Understanding」(大規模多任務語言理解),是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。
以下是MMLU的主要特點說明:
- 測試範圍廣泛:涵蓋57個不同的主題領域,包括人文科學(歷史、哲學、文學)、社會科學(心理學、經濟學、政治)、理工科(數學、物理、工程)、以及專業領域(法律、醫學、會計)等。
- 題型特性:所有題目均為多選題形式,每題有四個選項,難度從大學基礎到專業級別不等。
- 測試方式:
- Zero-shot:模型在沒有任何該任務先前示例或上下文提示的狀況下,直接根據預先學到的知識回答問題。
- Few-shot:模型在回答前會給予少量的範例問題與答案,幫助模型調整並提升答題表現。
- 測評內容:不僅測試模型的基礎知識,也重視推理和問題解決能力。例如數學群論問題、生物細胞結構、醫學臨床判斷等皆包括在內。
- 評分方式:以準確率計算,統計模型在各領域的表現,並綜合成總分。目的是全面反映模型的多任務理解能力和跨領域知識遷移能力。
- 意義與用途:MMLU為研究者與開發者提供了一套標準化且嚴謹的工具,用來比較和提升大型語言模型的知識廣度與推理水平,推動自然語言處理技術的進步。