2024-07-13|閱讀時間 ‧ 約 23 分鐘

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


AI說書 - 從0開始 - 82AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評估流程並將其應用到您選擇實施的模型中


有鑑於此,有必要學習一下評估流程 (Evaluation Process) 是怎麼回事。


Wang 等人於 2019 為他們的 SuperGLUE Benchmark 選擇了 NLP 的實際代表性任務,這些任務的選擇標準比 GLUE 更嚴格,例如,任務不僅必須理解文本,還必須理解推理 (Reason),推理水平還不是人類頂尖專家的水平,然而,性能水準足以取代許多人工任務。


主要的 SuperGLUE 任務顯示在 https://super.gluebenchmark.com/tasks,如下所示:

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, 2024


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.