更新於 2024/07/11閱讀時間約 1 分鐘

AI說書 - 從0開始 - 83

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


延續 AI說書 - 從0開始 - 82 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式:

  • MCC

首先介紹 True (T) Positive (P)、False (F) Positive (P)、True (T) Negative (N) 以及 False (F) Negative (N),有了這些之後定義 MCC 為:


  • Human Evaluation

人工評估可以應用於較小的資料集或較大資料集的子集,人工評估可以有效:

  1. 在設計和訓練過程中分析模型的輸出
  2. 模型投入生產後提供回饋
  3. 為給定任務建立樣本資料集
  4. 建立新的基準任務和方法
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.