我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 82 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式:
首先介紹 True (T) Positive (P)、False (F) Positive (P)、True (T) Negative (N) 以及 False (F) Negative (N),有了這些之後定義 MCC 為:
人工評估可以應用於較小的資料集或較大資料集的子集,人工評估可以有效: