GSM8K(Grade School Math 8K)

更新 發佈閱讀 2 分鐘

GSM8K(Grade School Math 8K)是一個用來評估大型語言模型在數學推理能力方面的經典基準數據集。它包含約8,500個由專業人員創建的、涵蓋多步驟推理的小學生數學語言題目,這些題目語言多樣且設計用於測試模型對基礎數學問題的理解與解答能力。

主要特點包括:

  • 題目數量與結構:共有約7,500道訓練題和1,000道測試題。每題需要2到8個步驟的計算,多數涉及基本算術運算的串聯。
  • 語言多樣性:題目使用各種自然語言表達,考驗模型的語言理解與數學推理綜合能力。
  • 挑戰目標:雖然題目概念簡單,但多步驟計算和詞語表達的多樣性使得即使是先進的大型語言模型(如GPT-4)在此任務上仍有挑戰。
  • 應用:主要用於訓練和評估模型的多步數學推理能力,並推動提升模型在解題過程中逐步推理的表現。

目前頂尖模型在GSM8K上的表現如下:

  • Anthropic Claude 3約達95%準確率(Zero-shot)
  • Google Gemini Ultra約94.4%
  • OpenAI GPT-4約92%,採用微調+少量示例推理(5-shot CoT)
  • 其他多種先進模型準確率一般在80%-90%之間。

此外,研究者也使用像是驗證器(verifier)模型來評估和優化生成答案的正確性,進一步提升GSM8K上的準確表現。

簡而言之,GSM8K是目前評估大型語言模型在小學數學詞彙問題上多步推理能力的重要指標,成為檢測和比較模型數學解題能力的主流基準之一。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
46會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/14
HellaSwag 是一個用來評估大型語言模型(LLM)常識推理能力的重要基準測試集,首次由 Zellers 等人在2019年提出。其設計目標在於測試模型對日常生活場景中「合理事件排序」的理解和推斷能力。以下是 HellaSwag 的關鍵特點與運作方式: 名稱由來:HellaSwag 全稱為 Ha
2025/08/14
HellaSwag 是一個用來評估大型語言模型(LLM)常識推理能力的重要基準測試集,首次由 Zellers 等人在2019年提出。其設計目標在於測試模型對日常生活場景中「合理事件排序」的理解和推斷能力。以下是 HellaSwag 的關鍵特點與運作方式: 名稱由來:HellaSwag 全稱為 Ha
2025/08/14
MMLU,全名是「Massive Multi-task Language Understanding」(大規模多任務語言理解),是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。 以下是MMLU的主要特點說明: 測試範圍廣泛:涵蓋57個不同的主題領域,包括人文科學(歷史、哲學
2025/08/14
MMLU,全名是「Massive Multi-task Language Understanding」(大規模多任務語言理解),是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。 以下是MMLU的主要特點說明: 測試範圍廣泛:涵蓋57個不同的主題領域,包括人文科學(歷史、哲學
2025/08/14
COCO(Common Objects in Context)是一個大規模且廣泛使用的影像數據集,主要用於計算機視覺領域中的目標檢測(Detection)、圖像分割(Segmentation)、以及圖像描述(Captioning)等任務。以下是COCO資料集的重點介紹: 規模與內容: COCO包含
2025/08/14
COCO(Common Objects in Context)是一個大規模且廣泛使用的影像數據集,主要用於計算機視覺領域中的目標檢測(Detection)、圖像分割(Segmentation)、以及圖像描述(Captioning)等任務。以下是COCO資料集的重點介紹: 規模與內容: COCO包含
看更多
你可能也想看
Thumbnail
112年國中教育會考數學科詳解 手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
Thumbnail
112年國中教育會考數學科詳解 手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
中學數學基礎練習—整數加法練習
Thumbnail
中學數學基礎練習—整數加法練習
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
高中數學主題練習—平面向量內積計算
Thumbnail
高中數學主題練習—平面向量內積計算
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
高中數學主題練習—平面向量內積計算
Thumbnail
高中數學主題練習—平面向量內積計算
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
Thumbnail
手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News