我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 86 提及 SuperGLUE 任務清單,當中會包含以下欄位:
SuperGLUE 提供任務說明、軟體、資料集以及描述要解決的問題的論文或網站,一旦團隊運行基準測試任務並到達排行榜水準,就會顯示結果,SuperGLUE 顯示整體得分和每個任務的得分:
我們按照 Wang 等人 2019 年的論文指示,其提供了合理答案的選擇
(Choice of Plausible Answers, COPA) 任務,NLU 模型的目標是展示其機器思維(不是人類思維)的潛力,在我們的例子中,Transformer 必須選擇問題的最合理的答案,資料集提供了前提,Transformer 模型必須找到最合理的答案,以下舉例:
選項 1:我的鄰居邀請我進去
選項 2:我的鄰居離開了他的房子
人類需要一兩秒鐘才能回答這個問題,這表明它需要一些常識性的思維,COPA.zip 是一個即用型資料集,可以直接從 SuperGLUE 任務頁面下載,所提供的指標使基準競賽 (Benchmark Race) 的所有參與者都平等且可用。