我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評估流程並將其應用到您選擇實施的模型中。
有鑑於此,有必要學習一下評估流程 (Evaluation Process) 是怎麼回事。
Wang 等人於 2019 為他們的 SuperGLUE Benchmark 選擇了 NLP 的實際代表性任務,這些任務的選擇標準比 GLUE 更嚴格,例如,任務不僅必須理解文本,還必須理解推理 (Reason),推理水平還不是人類頂尖專家的水平,然而,性能水準足以取代許多人工任務。
主要的 SuperGLUE 任務顯示在 https://super.gluebenchmark.com/tasks,如下所示: