2024-07-13|閱讀時間 ‧ 約 23 分鐘

AI說書 - 從0開始 - 87

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


延續 AI說書 - 從0開始 - 86 提及 SuperGLUE 任務清單,當中會包含以下欄位:

  • 名稱 (Name):經過微調的預訓練模型的下游任務的名稱
  • 標識符 (Identifier):名稱的縮寫或短版本
  • 下載 (Download):是資料集的下載連結
  • 更多資訊 (More Info):指向設計資料集驅動任務的團隊的論文或網站以提供更多詳細資訊
  • 指標 (Metric):是用於評估模型的測量分數,詳見 AI說書 - 從0開始 - 82AI說書 - 從0開始 - 83


SuperGLUE 提供任務說明、軟體、資料集以及描述要解決的問題的論文或網站,一旦團隊運行基準測試任務並到達排行榜水準,就會顯示結果,SuperGLUE 顯示整體得分和每個任務的得分:

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, 2024


我們按照 Wang 等人 2019 年的論文指示,其提供了合理答案的選擇
(Choice of Plausible Answers, COPA) 任務,NLU 模型的目標是展示其機器思維(不是人類思維)的潛力,在我們的例子中,Transformer 必須選擇問題的最合理的答案,資料集提供了前提,Transformer 模型必須找到最合理的答案,以下舉例:

  • 前提:我敲了鄰居的門。結果發生了什麼事?

選項 1:我的鄰居邀請我進去

選項 2:我的鄰居離開了他的房子


人類需要一兩秒鐘才能回答這個問題,這表明它需要一些常識性的思維,COPA.zip 是一個即用型資料集,可以直接從 SuperGLUE 任務頁面下載,所提供的指標使基準競賽 (Benchmark Race) 的所有參與者都平等且可用。

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.