GSM8K(Grade School Math 8K)是一個用來評估大型語言模型在數學推理能力方面的經典基準數據集。它包含約8,500個由專業人員創建的、涵蓋多步驟推理的小學生數學語言題目,這些題目語言多樣且設計用於測試模型對基礎數學問題的理解與解答能力。
主要特點包括:
- 題目數量與結構:共有約7,500道訓練題和1,000道測試題。每題需要2到8個步驟的計算,多數涉及基本算術運算的串聯。
- 語言多樣性:題目使用各種自然語言表達,考驗模型的語言理解與數學推理綜合能力。
- 挑戰目標:雖然題目概念簡單,但多步驟計算和詞語表達的多樣性使得即使是先進的大型語言模型(如GPT-4)在此任務上仍有挑戰。
- 應用:主要用於訓練和評估模型的多步數學推理能力,並推動提升模型在解題過程中逐步推理的表現。
- Anthropic Claude 3約達95%準確率(Zero-shot)
- Google Gemini Ultra約94.4%
- OpenAI GPT-4約92%,採用微調+少量示例推理(5-shot CoT)
- 其他多種先進模型準確率一般在80%-90%之間。
此外,研究者也使用像是驗證器(verifier)模型來評估和優化生成答案的正確性,進一步提升GSM8K上的準確表現。
簡而言之,GSM8K是目前評估大型語言模型在小學數學詞彙問題上多步推理能力的重要指標,成為檢測和比較模型數學解題能力的主流基準之一。