NLP 分類任務,有一些常用的評估指標可以衡量模型的性能。以下是一些主要的指標及其解釋:
- 準確率 (Accuracy):
- 定義: 指模型預測正確的樣本數占總樣本數的比例。 公式: Accuracy = (預測正確的樣本數) / (總樣本數) 適用場景: 當各個類別的樣本數量相對平衡時,準確率是一個直觀且常用的指標。 局限性: 在類別不平衡的情況下,準確率可能會產生誤導。例如,如果一個二元分類任務中,90% 的樣本都屬於正類,一個總是預測為正類的模型也能達到 90% 的準確率,但實際上這個模型並沒有學到任何有用的東西。
- 精確率 (Precision):
- 定義: 指在所有被模型預測為正類的樣本中,真正屬於正類的樣本所占的比例。 公式: Precision = (真正例數 True Positives, TP) / (真正例數 TP + 假正例數 False Positives, FP) 適用場景: 當我們更關心模型預測為正類的結果中,有多少是真正正確的時候,例如在垃圾郵件過濾中,我們希望被標記為垃圾郵件的郵件盡可能是真正的垃圾郵件,以避免誤判重要的郵件。
- 召回率 (Recall) / 靈敏度 (Sensitivity) / 真正例率 (True Positive Rate, TPR):
- 定義: 指在所有真正屬於正類的樣本中,被模型正確預測為正類的樣本所占的比例。 公式: Recall = (真正例數 TP) / (真正例數 TP + 假負例數 False Negatives, FN) 適用場景: 當我們更關心模型是否能找到所有真正的正類樣本時,例如在疾病診斷中,我們希望盡可能地找出所有患病的人,避免漏診。
- F1 分數 (F1-Score):
- 定義: 精確率和召回率的調和平均值。它綜合考慮了精確率和召回率,是一個更全面的評價指標。 公式: F1-Score = 2 * (Precision * Recall) / (Precision + Recall) 適用場景: 當我們需要在精確率和召回率之間找到平衡時,F1 分數是一個很好的選擇,尤其是在類別不平衡的情況下。
- 混淆矩陣 (Confusion Matrix):
- 定義: 一個表格,用於總結模型預測結果與真實標籤之間的對應關係。對於二元分類問題,它通常包含四個值: 真正例 (True Positive, TP): 模型預測為正類,實際也為正類。 假正例 (False Positive, FP): 模型預測為正類,實際為負類(Type I error)。 假負例 (False Negative, FN): 模型預測為負類,實際為正類(Type II error)。 真負例 (True Negative, TN): 模型預測為負類,實際也為負類。 適用場景: 混淆矩陣可以提供更詳細的分類結果信息,幫助我們理解模型在哪些類別上表現良好,在哪些類別上容易出錯。許多其他的評估指標(如精確率、召回率)都是基於混淆矩陣計算出來的。
- 受試者工作特徵曲線下面積 (Area Under the Receiver Operating Characteristic Curve, AUC-ROC):
- 定義: ROC 曲線是以假正例率 (False Positive Rate, FPR) 為橫軸,真正例率 (True Positive Rate, TPR 或 Recall) 為縱軸繪製的曲線。AUC-ROC 的值表示 ROC 曲線下方的面積,取值範圍在 0 到 1 之間。 公式: FPR = FP / (FP + TN) 適用場景: AUC-ROC 常用於二元分類問題,特別是在關注模型區分正負類能力的場景下。AUC 值越接近 1,表示模型的分類性能越好。即使在類別不平衡的情況下,AUC-ROC 也能提供一個相對可靠的評價。
- 對數損失 (Log Loss) / 交叉熵損失 (Cross-Entropy Loss):
- 定義: 這個指標衡量的是模型預測的概率分布與真實標籤之間的差異。它是一個損失函數,通常在模型的訓練過程中被最小化。在評估階段,較小的對數損失表示模型預測的概率分布更接近真實情況。 適用場景: 適用於輸出概率的分類模型,例如邏輯回歸、Softmax 分類的神经网络等。
多類別分類的評估指標:
對於多類別分類問題,上述的一些指標需要進行擴展或調整:- 準確率 (Accuracy) 的計算方式仍然相同。
- 精確率 (Precision)、召回率 (Recall) 和 F1 分數 (F1-Score) 可以針對每一個類別分別計算,然後可以取平均值(例如,宏平均 macro-average、微平均 micro-average、加權平均 weighted-average)。
- 宏平均: 計算每個類別的指標,然後取平均值,對每個類別的貢獻相同。 微平均: 將所有樣本的預測結果和真實標籤放在一起計算總體的 TP、FP、TN、FN,然後計算指標,對每個樣本的貢獻相同。 加權平均: 計算每個類別的指標,然後根據該類別的樣本數量進行加權平均。
選擇哪些評估指標取決於具體的任務目標和數據特性。在實際應用中,通常會同時考慮多個指標來全面評估模型的性能。