分類任務評估指標是用於衡量機器學習分類模型性能的各種量化指標。它們幫助我們了解模型在將數據點劃分到不同類別時的表現如何,並比較不同模型之間的優劣。
以下是一些最常見的分類任務評估指標:
1. 混淆矩陣 (Confusion Matrix):混淆矩陣是一個表格,用於總結分類模型的預測結果。對於二元分類問題,它通常包含以下四個元素:
- 真正例 (True Positive, TP): 模型預測為正類,實際也為正類的樣本數。
- 真負例 (True Negative, TN): 模型預測為負類,實際也為負類的樣本數。
- 假正例 (False Positive, FP): 模型預測為正類,實際為負類的樣本數(也稱為 Type I 錯誤)。
- 假負例 (False Negative, FN): 模型預測為負類,實際為正類的樣本數(也稱為 Type II 錯誤)。
對於多類別分類問題,混淆矩陣的行表示實際類別,列表示預測類別(或反之亦然)。
2. 準確率 (Accuracy):
準確率是指模型預測正確的樣本數佔總樣本數的比例。
Accuracy = (TP + TN) / (TP + TN + FP + FN)
準確率是最直觀的指標,但在類別不平衡的情況下可能無法很好地反映模型的性能。
3. 精確度 (Precision):
精確度是指在所有被模型預測為正類的樣本中,實際為正類的樣本所佔的比例。
Precision = TP / (TP + FP)
精確度衡量的是模型預測的正類中有多少是真正的正類。
4. 召回率 (Recall) / 靈敏度 (Sensitivity) / 真陽性率 (True Positive Rate, TPR):
召回率是指在所有實際為正類的樣本中,被模型正確預測為正類的樣本所佔的比例。
Recall = TP / (TP + FN)
召回率衡量的是模型能夠找出所有正類樣本的能力。
5. F1 分數 (F1-score):
F1 分數是精確度和召回率的調和平均值,用於綜合評估模型的性能。
F1-score = 2 * (Precision * Recall) / (Precision + Recall)
F1 分數在精確度和召回率之間取得平衡,對於類別不平衡的問題,F1 分數通常比準確率更有參考價值。
6. 特異度 (Specificity) / 真陰性率 (True Negative Rate, TNR):
特異度是指在所有實際為負類的樣本中,被模型正確預測為負類的樣本所佔的比例。
Specificity = TN / (TN + FP)
特異度衡量的是模型能夠正確識別出所有負類樣本的能力。
7. 假陽性率 (False Positive Rate, FPR):
假陽性率是指在所有實際為負類的樣本中,被模型錯誤預測為正類的樣本所佔的比例。
FPR = FP / (FP + TN) = 1 - Specificity
8. AUC-ROC 曲線 (Area Under the Receiver Operating Characteristic curve):
ROC 曲線是以假陽性率 (FPR) 為橫軸,真陽性率 (TPR) 為縱軸繪製的曲線。AUC 是指 ROC 曲線下的面積,其值介於 0 到 1 之間。AUC 值越大,表示模型的性能越好,能夠更好地區分正負類別。AUC-ROC 常用於評估二元分類模型的性能,尤其在類別不平衡的情況下。
9. 對數損失 (Log Loss) / 交叉熵損失 (Cross-Entropy Loss):
對數損失衡量的是模型預測的概率分布與真實標籤之間的差異。對於二元分類,公式如下:
Log Loss = - [y * log(p) + (1 - y) * log(1 - p)]
其中,y 是真實標籤(0 或 1),p 是模型預測為正類的概率。對數損失越小,模型的性能越好。這個指標通常用於評估模型預測概率的準確性。
10. 精確率-召回率曲線 (Precision-Recall Curve) 和 AP (Average Precision):
PR 曲線是以召回率為橫軸,精確度為縱軸繪製的曲線。AP 是指 PR 曲線下的平均精確度。AP 常用於評估物件偵測等任務中,對於正樣本非常重要的場景。
選擇哪個指標取決於具體的應用場景和業務目標。 例如,在醫療診斷中,召回率(確保不漏診)可能比精確度更重要;而在垃圾郵件過濾中,精確度(確保不誤判正常郵件為垃圾郵件)可能更重要。理解每個指標的含義和適用場景對於評估和改進分類模型至關重要。