HellaSwag 是一個用來評估大型語言模型(LLM)常識推理能力的重要基準測試集,首次由 Zellers 等人在2019年提出。其設計目標在於測試模型對日常生活場景中「合理事件排序」的理解和推斷能力。以下是 HellaSwag 的關鍵特點與運作方式:
- 名稱由來:HellaSwag 全稱為 Harder Endings Longer contexts Low shot Activities for Situations With Adversarial Generations,強調題目有較長的情境描述,且錯誤選項經過對抗性生成以提高難度。
- 題目形式:每道題目以短篇描述開頭(句子多取自視頻字幕或線上教學文本,如 ActivityNet、WikiHow),描述一個日常動作或場景。接著給出4個可能的後續敘述選項,只有1個正確,其餘3個是精心生成且有誤導性的錯誤答案,要考驗模型的常識和邏輯推理能力。
- 範例:
人類很容易看出選項A最符合合理操作,機器則需理解物理和社會常識來作答。 - 上下文:一個人打開穀物盒,開始倒進碗裡。
- 選項A:他把碗放在桌上,拿起湯匙。
- 選項B:他把穀物扔向牆壁。
- 選項C:他走開並關上門。
- 選項D:他把盒子倒過來,什麼也沒出來。
- 測試內容:
- 需要理解事件的時間序列、
- 物理常識(行為是否可能)、
- 社會規範(行為是否合適)、
- 深層語義推理(基於暗示完成故事)。
- 資料規模:原始版本包含超過一萬道題目,2025年推出的 HellaSwag-Pro 更擴充了超過11,000道題,並引入句式轉換(如被動語態、否定詞)、語義敏感性測試、去除表面線索等,強化評測模型的推理穩健度。
- 評分意義:HellaSwag 不只是看模型表面文字匹配能力,而是衡量其真正理解和推斷常識事件的能力。目前人類正確率約95.6%,開源模型約80%,頂尖專有模型接近90%,顯示模型在常識推理上仍有提升空間。
- 應用與影響:
- 作為診斷工具,揭露大型語言模型在常識推理方面的限制,
- 驅動對抗性數據生成和語義穩健性評測技術,
- 幫助模型開發者在多樣化問題和語境中提升模型可靠度,
- 已成為多種自然語言處理應用的微調參考和評估標準。
總結來說,HellaSwag 是一個聚焦於日常場景常識推理的語言理解基準,透過設計精巧的選項干擾,挑戰模型不能只靠表面文字匹配,而必須具備真正的世界知識和推理能力,成為衡量大型語言模型智能的經典工具之一。