我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 82 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式:MCC:首先介紹 True (T) Positive (P)、False (F) Positive (P)、True (T) Negative (N) 以及 False (F) Negative (N),有了這些之後定義 MCC 為:Human Evaluation:人工評估可以應用於較小的資料集或較大資料集的子集,人工評估可以有效:在設計和訓練過程中分析模型的輸出模型投入生產後提供回饋為給定任務建立樣本資料集建立新的基準任務和方法