更新於 2024/07/12閱讀時間約 1 分鐘

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


AI說書 - 從0開始 - 82AI說書 - 從0開始 - 83,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要提供以下幾項素材:

  1. 模型
  2. 使用資料集
  3. 衡量標準,如 AI說書 - 從0開始 - 82AI說書 - 從0開始 - 83 所述


以下提供幾個常見的自然語言處理 Benchmarks:

  1. General Language Understanding Evaluation (GLUE)
  2. SuperGLUE
  3. Workshop on Machine Translation (WMT)


SuperGLUE 基準測試是由 Wang 等人於 2019 所提出的,此團隊也是 GLUE 基準測試的提出者,GLUE 基準測試的動機是為了表明 Natural Language Understanding 必須適用於廣泛的任務,主要集中在突破性的 Transformer 模型上,GLUE 的排行版可以參見:https://gluebenchmark.com/leaderboard , 2023 年 11 月的排名見下表:

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, 2024




分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.