NLP分類任務估指標

更新於 發佈於 閱讀時間約 6 分鐘

NLP 分類任務,有一些常用的評估指標可以衡量模型的性能。以下是一些主要的指標及其解釋:

  1. 準確率 (Accuracy):
    • 定義: 指模型預測正確的樣本數占總樣本數的比例。 公式: Accuracy = (預測正確的樣本數) / (總樣本數) 適用場景: 當各個類別的樣本數量相對平衡時,準確率是一個直觀且常用的指標。 局限性: 在類別不平衡的情況下,準確率可能會產生誤導。例如,如果一個二元分類任務中,90% 的樣本都屬於正類,一個總是預測為正類的模型也能達到 90% 的準確率,但實際上這個模型並沒有學到任何有用的東西。
  2. 精確率 (Precision):
    • 定義: 指在所有被模型預測為正類的樣本中,真正屬於正類的樣本所占的比例。 公式: Precision = (真正例數 True Positives, TP) / (真正例數 TP + 假正例數 False Positives, FP) 適用場景: 當我們更關心模型預測為正類的結果中,有多少是真正正確的時候,例如在垃圾郵件過濾中,我們希望被標記為垃圾郵件的郵件盡可能是真正的垃圾郵件,以避免誤判重要的郵件。
  3. 召回率 (Recall) / 靈敏度 (Sensitivity) / 真正例率 (True Positive Rate, TPR):
    • 定義: 指在所有真正屬於正類的樣本中,被模型正確預測為正類的樣本所占的比例。 公式: Recall = (真正例數 TP) / (真正例數 TP + 假負例數 False Negatives, FN) 適用場景: 當我們更關心模型是否能找到所有真正的正類樣本時,例如在疾病診斷中,我們希望盡可能地找出所有患病的人,避免漏診。
  4. F1 分數 (F1-Score):
    • 定義: 精確率和召回率的調和平均值。它綜合考慮了精確率和召回率,是一個更全面的評價指標。 公式: F1-Score = 2 * (Precision * Recall) / (Precision + Recall) 適用場景: 當我們需要在精確率和召回率之間找到平衡時,F1 分數是一個很好的選擇,尤其是在類別不平衡的情況下。
  5. 混淆矩陣 (Confusion Matrix):
    • 定義: 一個表格,用於總結模型預測結果與真實標籤之間的對應關係。對於二元分類問題,它通常包含四個值: 真正例 (True Positive, TP): 模型預測為正類,實際也為正類。 假正例 (False Positive, FP): 模型預測為正類,實際為負類(Type I error)。 假負例 (False Negative, FN): 模型預測為負類,實際為正類(Type II error)。 真負例 (True Negative, TN): 模型預測為負類,實際也為負類。 適用場景: 混淆矩陣可以提供更詳細的分類結果信息,幫助我們理解模型在哪些類別上表現良好,在哪些類別上容易出錯。許多其他的評估指標(如精確率、召回率)都是基於混淆矩陣計算出來的。
  6. 受試者工作特徵曲線下面積 (Area Under the Receiver Operating Characteristic Curve, AUC-ROC):
    • 定義: ROC 曲線是以假正例率 (False Positive Rate, FPR) 為橫軸,真正例率 (True Positive Rate, TPR 或 Recall) 為縱軸繪製的曲線。AUC-ROC 的值表示 ROC 曲線下方的面積,取值範圍在 0 到 1 之間。 公式: FPR = FP / (FP + TN) 適用場景: AUC-ROC 常用於二元分類問題,特別是在關注模型區分正負類能力的場景下。AUC 值越接近 1,表示模型的分類性能越好。即使在類別不平衡的情況下,AUC-ROC 也能提供一個相對可靠的評價。
  7. 對數損失 (Log Loss) / 交叉熵損失 (Cross-Entropy Loss):
    • 定義: 這個指標衡量的是模型預測的概率分布與真實標籤之間的差異。它是一個損失函數,通常在模型的訓練過程中被最小化。在評估階段,較小的對數損失表示模型預測的概率分布更接近真實情況。 適用場景: 適用於輸出概率的分類模型,例如邏輯回歸、Softmax 分類的神经网络等。

多類別分類的評估指標:

對於多類別分類問題,上述的一些指標需要進行擴展或調整:

  • 準確率 (Accuracy) 的計算方式仍然相同。
  • 精確率 (Precision)召回率 (Recall)F1 分數 (F1-Score) 可以針對每一個類別分別計算,然後可以取平均值(例如,宏平均 macro-average、微平均 micro-average、加權平均 weighted-average)。
    • 宏平均: 計算每個類別的指標,然後取平均值,對每個類別的貢獻相同。 微平均: 將所有樣本的預測結果和真實標籤放在一起計算總體的 TP、FP、TN、FN,然後計算指標,對每個樣本的貢獻相同。 加權平均: 計算每個類別的指標,然後根據該類別的樣本數量進行加權平均。

選擇哪些評估指標取決於具體的任務目標和數據特性。在實際應用中,通常會同時考慮多個指標來全面評估模型的性能。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
4會員
194內容數
現職 : 富邦建設資訊副理 經濟部 iPAS AI應用規劃師
2025/05/24
「少樣本學習能力 (Few-shot Learning)」和「零樣本學習能力 (Zero-shot Learning)」是描述預訓練模型(如 GPT 系列)在應用到新的、未見過的任務時,所需訓練數據量的能力。這兩種能力都非常強大,因為它們減少了對大量標註數據的依賴。 零樣本學習能力 (Zero-s
2025/05/24
「少樣本學習能力 (Few-shot Learning)」和「零樣本學習能力 (Zero-shot Learning)」是描述預訓練模型(如 GPT 系列)在應用到新的、未見過的任務時,所需訓練數據量的能力。這兩種能力都非常強大,因為它們減少了對大量標註數據的依賴。 零樣本學習能力 (Zero-s
2025/05/24
是 OpenAI 開發的一系列語言模型的名稱,它和 BERT 一樣,也是基於 Transformer 模型架構。然而,GPT 的主要目標和訓練方式與 BERT 有一些關鍵的不同。GPT 家族以其強大的文本生成能力而聞名。 GPT 的主要特點和創新: 基於 Transformer 解碼器 (Dec
2025/05/24
是 OpenAI 開發的一系列語言模型的名稱,它和 BERT 一樣,也是基於 Transformer 模型架構。然而,GPT 的主要目標和訓練方式與 BERT 有一些關鍵的不同。GPT 家族以其強大的文本生成能力而聞名。 GPT 的主要特點和創新: 基於 Transformer 解碼器 (Dec
2025/05/24
是一種基於 Transformer 模型架構的預訓練語言模型,由 Google 於 2018 年提出,並在自然語言處理 (NLP) 領域產生了巨大的影響。BERT 的核心創新在於它能夠學習到詞語在句子中的雙向上下文表示,從而在各種下游 NLP 任務中取得了卓越的性能。 BERT 的主要特點和創新:
2025/05/24
是一種基於 Transformer 模型架構的預訓練語言模型,由 Google 於 2018 年提出,並在自然語言處理 (NLP) 領域產生了巨大的影響。BERT 的核心創新在於它能夠學習到詞語在句子中的雙向上下文表示,從而在各種下游 NLP 任務中取得了卓越的性能。 BERT 的主要特點和創新:
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記,未來將不定期新增內容,此技術屬AI人工智慧範疇。 1.2 Structured Probabilistic Models 既然要融入Uncertainty和Probability
Thumbnail
以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記,未來將不定期新增內容,此技術屬AI人工智慧範疇。 1.2 Structured Probabilistic Models 既然要融入Uncertainty和Probability
Thumbnail
高中數學主題練習—平均數計算
Thumbnail
高中數學主題練習—平均數計算
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
如何用Python為某欄做分類,例如:判斷分數是否及格 
Thumbnail
如何用Python為某欄做分類,例如:判斷分數是否及格 
Thumbnail
今天來講:統計模擬研究的入門文章。(2023-08-23)
Thumbnail
今天來講:統計模擬研究的入門文章。(2023-08-23)
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News