PR曲線(Precision-Recall Curve,精確率-召回率曲線)是一種用來評估分類模型性能,特別是二分類任務中,通過不同分類閾值下的精確率(Precision)與召回率(Recall)的變化關係繪製而成的曲線。
PR曲線定義:
- 橫軸(X軸)是召回率(Recall),表示模型在所有實際正類樣本中,成功識別出的比例。
- 縱軸(Y軸)是精確率(Precision),表示模型判斷為正類中,實際為正類的比例。
PR曲線的用途與特點:
- 適用於不平衡數據:在正負類比例嚴重不均衡時,PR曲線可以更有效展現模型對少數類的預測能力。
- 衡量模型性能:曲線下的面積(AUC-PR)越大,表示模型性能越好。
- 展示精度與召回的權衡:高召回率通常伴隨精確率下降,反之亦然,PR曲線呈現這一trade-off。
PR曲線與ROC曲線比較:
- PR曲線專注於正類預測性能,更加敏感於少數類別表現。
- ROC曲線橫軸是假陽性率,不受類別比例影響,但在高度不平衡數據中,具有誤導性。
- 在不平衡數據場景,PR曲線更推薦使用。
簡單比喻:
PR曲線類似尋找稀有寶物的成功率與準確率,測試模型在發現正確樣本時的效率和準確性。
總結來說,PR曲線是評估分類器特別是在不平衡數據集下,分類能力的重要工具,可幫助選擇與調整模型參數。