分類任務評估指標 (Classification Metrics)

更新於 發佈於 閱讀時間約 5 分鐘

分類任務評估指標是用於衡量機器學習分類模型性能的各種量化指標。它們幫助我們了解模型在將數據點劃分到不同類別時的表現如何,並比較不同模型之間的優劣。

以下是一些最常見的分類任務評估指標:

1. 混淆矩陣 (Confusion Matrix):

混淆矩陣是一個表格,用於總結分類模型的預測結果。對於二元分類問題,它通常包含以下四個元素:

  • 真正例 (True Positive, TP): 模型預測為正類,實際也為正類的樣本數。
  • 真負例 (True Negative, TN): 模型預測為負類,實際也為負類的樣本數。
  • 假正例 (False Positive, FP): 模型預測為正類,實際為負類的樣本數(也稱為 Type I 錯誤)。
  • 假負例 (False Negative, FN): 模型預測為負類,實際為正類的樣本數(也稱為 Type II 錯誤)。

對於多類別分類問題,混淆矩陣的行表示實際類別,列表示預測類別(或反之亦然)。

2. 準確率 (Accuracy):

準確率是指模型預測正確的樣本數佔總樣本數的比例。

Accuracy = (TP + TN) / (TP + TN + FP + FN)

準確率是最直觀的指標,但在類別不平衡的情況下可能無法很好地反映模型的性能。

3. 精確度 (Precision):

精確度是指在所有被模型預測為正類的樣本中,實際為正類的樣本所佔的比例。

Precision = TP / (TP + FP)

精確度衡量的是模型預測的正類中有多少是真正的正類。

4. 召回率 (Recall) / 靈敏度 (Sensitivity) / 真陽性率 (True Positive Rate, TPR):

召回率是指在所有實際為正類的樣本中,被模型正確預測為正類的樣本所佔的比例。

Recall = TP / (TP + FN)

召回率衡量的是模型能夠找出所有正類樣本的能力。

5. F1 分數 (F1-score):

F1 分數是精確度和召回率的調和平均值,用於綜合評估模型的性能。

F1-score = 2 * (Precision * Recall) / (Precision + Recall)

F1 分數在精確度和召回率之間取得平衡,對於類別不平衡的問題,F1 分數通常比準確率更有參考價值。

6. 特異度 (Specificity) / 真陰性率 (True Negative Rate, TNR):

特異度是指在所有實際為負類的樣本中,被模型正確預測為負類的樣本所佔的比例。

Specificity = TN / (TN + FP)

特異度衡量的是模型能夠正確識別出所有負類樣本的能力。

7. 假陽性率 (False Positive Rate, FPR):

假陽性率是指在所有實際為負類的樣本中,被模型錯誤預測為正類的樣本所佔的比例。

FPR = FP / (FP + TN) = 1 - Specificity

8. AUC-ROC 曲線 (Area Under the Receiver Operating Characteristic curve):

ROC 曲線是以假陽性率 (FPR) 為橫軸,真陽性率 (TPR) 為縱軸繪製的曲線。AUC 是指 ROC 曲線下的面積,其值介於 0 到 1 之間。AUC 值越大,表示模型的性能越好,能夠更好地區分正負類別。AUC-ROC 常用於評估二元分類模型的性能,尤其在類別不平衡的情況下。

9. 對數損失 (Log Loss) / 交叉熵損失 (Cross-Entropy Loss):

對數損失衡量的是模型預測的概率分布與真實標籤之間的差異。對於二元分類,公式如下:

Log Loss = - [y * log(p) + (1 - y) * log(1 - p)]

其中,y 是真實標籤(0 或 1),p 是模型預測為正類的概率。對數損失越小,模型的性能越好。這個指標通常用於評估模型預測概率的準確性。

10. 精確率-召回率曲線 (Precision-Recall Curve) 和 AP (Average Precision):

PR 曲線是以召回率為橫軸,精確度為縱軸繪製的曲線。AP 是指 PR 曲線下的平均精確度。AP 常用於評估物件偵測等任務中,對於正樣本非常重要的場景。

選擇哪個指標取決於具體的應用場景和業務目標。 例如,在醫療診斷中,召回率(確保不漏診)可能比精確度更重要;而在垃圾郵件過濾中,精確度(確保不誤判正常郵件為垃圾郵件)可能更重要。理解每個指標的含義和適用場景對於評估和改進分類模型至關重要。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
4會員
227內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師
2025/05/27
欠擬合 (Underfitting) 是指在機器學習模型的訓練過程中,模型沒有充分學習到訓練數據中的規律和模式,導致在訓練集和測試集上的表現都不夠理想的現象。簡單來說,模型過於簡單,無法捕捉到數據之間的複雜關係。 為什麼會發生欠擬合? 欠擬合通常在以下情況下更容易發生: 模型複雜度過低: 模型
2025/05/27
欠擬合 (Underfitting) 是指在機器學習模型的訓練過程中,模型沒有充分學習到訓練數據中的規律和模式,導致在訓練集和測試集上的表現都不夠理想的現象。簡單來說,模型過於簡單,無法捕捉到數據之間的複雜關係。 為什麼會發生欠擬合? 欠擬合通常在以下情況下更容易發生: 模型複雜度過低: 模型
2025/05/27
過擬合 (Overfitting) 是指在機器學習模型的訓練過程中,模型過於完美地擬合了訓練數據的細節和雜訊,以至於在面對新的、未見過的數據時表現很差的現象。換句話說,模型在訓練集上表現出色,但在測試集或真實應用場景中的泛化能力很弱。 為什麼會發生過擬合? 過擬合通常在以下情況下更容易發生:
2025/05/27
過擬合 (Overfitting) 是指在機器學習模型的訓練過程中,模型過於完美地擬合了訓練數據的細節和雜訊,以至於在面對新的、未見過的數據時表現很差的現象。換句話說,模型在訓練集上表現出色,但在測試集或真實應用場景中的泛化能力很弱。 為什麼會發生過擬合? 過擬合通常在以下情況下更容易發生:
2025/05/27
遷移學習 (Transfer Learning) 是一種機器學習技術,旨在將在一個任務上學習到的知識遷移到另一個相關但不同的任務上。這種方法尤其在目標任務的數據量有限時非常有用,因為它可以利用在一個擁有大量數據的源任務上預先訓練好的模型所學到的通用特徵。 核心思想: 遷移學習的核心思想是,如果在
2025/05/27
遷移學習 (Transfer Learning) 是一種機器學習技術,旨在將在一個任務上學習到的知識遷移到另一個相關但不同的任務上。這種方法尤其在目標任務的數據量有限時非常有用,因為它可以利用在一個擁有大量數據的源任務上預先訓練好的模型所學到的通用特徵。 核心思想: 遷移學習的核心思想是,如果在
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
本文提供了一個關於模擬法演算法的問題,介紹了操作指令的格式及其解析。透過程式碼模擬每條指令,找出回到根目錄所需的操作次數。本文詳細說明瞭模擬法的複雜度分析,能夠幫助讀者更好地理解這個問題。
Thumbnail
本文提供了一個關於模擬法演算法的問題,介紹了操作指令的格式及其解析。透過程式碼模擬每條指令,找出回到根目錄所需的操作次數。本文詳細說明瞭模擬法的複雜度分析,能夠幫助讀者更好地理解這個問題。
Thumbnail
本文探討了監督式學習、分群和相似度這幾個推薦系統算法,分別討論了它們的優點、缺點以及適用場景。這些算法在推薦系統中扮演著重要角色,並透過特徵選擇與預處理、相似度度量和鄰居的選擇等關鍵因素進行深入分析。文章最後提出在選擇推薦系統算法時應該考慮的因素,以及未來的研究方向。
Thumbnail
本文探討了監督式學習、分群和相似度這幾個推薦系統算法,分別討論了它們的優點、缺點以及適用場景。這些算法在推薦系統中扮演著重要角色,並透過特徵選擇與預處理、相似度度量和鄰居的選擇等關鍵因素進行深入分析。文章最後提出在選擇推薦系統算法時應該考慮的因素,以及未來的研究方向。
Thumbnail
圖形演算法在資料處理上扮演重要角色。本文介紹圖形的歷史、定義、技術用途,以及為什麼我們要關心圖形演算法。文末還提及圖形演算法在機器學習領域的應用。下次將介紹更詳細的圖形演算法內容。
Thumbnail
圖形演算法在資料處理上扮演重要角色。本文介紹圖形的歷史、定義、技術用途,以及為什麼我們要關心圖形演算法。文末還提及圖形演算法在機器學習領域的應用。下次將介紹更詳細的圖形演算法內容。
Thumbnail
寫完〈從分類看方格子〉後,剛巧找到一篇資深統計專家格友在2023年6月寫的分析,包含當時的方格子分類與數據;有數據就可以比對,因此好奇的蝸蝸快速計算並提出推測,提供各位卓參。
Thumbnail
寫完〈從分類看方格子〉後,剛巧找到一篇資深統計專家格友在2023年6月寫的分析,包含當時的方格子分類與數據;有數據就可以比對,因此好奇的蝸蝸快速計算並提出推測,提供各位卓參。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
如何用Python為某欄做分類,例如:判斷分數是否及格 
Thumbnail
如何用Python為某欄做分類,例如:判斷分數是否及格 
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News