【資料分析】最清楚分別準確率、精確率、召回率、F1-Score 的差異與使用情境

更新於 發佈於 閱讀時間約 8 分鐘
raw-image

準確率、精確率、召回率、F1-Score 是在評估分類模型表現時常用的四個重要指標。當我們建立分類模型來進行預測時,如何衡量模型的好壞至關重要。這些指標各自側重於不同的評估角度,因此選擇合適的指標能幫助我們更全面地了解模型的效果。本文將帶你一步步了解這些指標的定義、如何計算它們,以及在什麼情境下應該使用它們,從而幫助你在未來的數據分析和機器學習項目中做出更明智的決策。


# 可使用目錄功能快速確認要閱覽的主題


何謂「正類」與「負類 」

在了解今天要說明的評估指標之前,要先了解何謂 正類(Positive Class) 與負類 (Negative Class)。

「正類」(Positive Class)是指在分類任務中,模型所關注的「感興趣的類別」。通常,正類是我們希望檢測或預測的目標。例如:

  • 在醫學診斷中,正類通常指的是「有疾病」的病人,而「負類」(Negative Class)指的是「沒有疾病」的病人。
  • 在信用卡流失預測中,正類可以是「流失的客戶」,負類是「未流失的客戶」。




評估指標重點總結

raw-image
raw-image



Accuracy(準確度)

定義

準確度是所有正確預測的樣本數佔總樣本數的比例,衡量模型在所有樣本中的預測表現。


公式

raw-image



  • TP(True Positive):真陽性,實際為正,預測也為正。
  • TN(True Negative):真陰性,實際為負,預測也為負。
  • FP(False Positive):假陽性,實際為負,預測為正。
  • FN(False Negative):假陰性,實際為正,預測為負。


舉例

如果在一個包含 100 個樣本的數據集中,模型正確預測了 85 個樣本,那麼模型的準確度就是 85%。


重點

準確度是一個簡單的指標,反映模型整體預測的表現,但當類別不平衡時,可能會給出誤導性的結果。例如,當正類樣本很少時,即使模型只預測負類,準確度仍然可能很高。


實際應用案例

  • 情境:

 電子郵件分類系統(將郵件分類為垃圾郵件或正常郵件)

  • 需求:

 當大部分郵件是正常郵件,垃圾郵件只佔一小部分時,你的目標是要正確分類出所有的郵件。

  • 使用準確度的原因:

 大多數郵件是正常的,所以模型只要能在大部分情況下正確分類就可以達到很高的準確度。因此,在這種情況下,準確度是一個合理的評估指標,因為系統需要正確分類所有郵件。

  • 何時使用準確度:
  1. 當類別分佈比較均衡時。
  2. 當錯誤分類不會帶來太大成本(如分類錯誤的後果可接受)。



精確率 (Precision)

定義

精確率是指在所有被模型預測為「正類」(例如預測為「流失」的客戶)中,有多少實際上是正確的。也就是說,精確率衡量的是模型在 「預測為正類的結果中有多少是真正的正類」


公式

raw-image



  • TP(True Positive,真正類): 被正確預測為正類的樣本數(實際為正,預測也為正)。
  • FP(False Positive,假正類): 被錯誤預測為正類的樣本數(實際為負,預測為正)。


舉例

如果模型預測了 100 個「流失」的客戶,其中 70 個實際上是真的流失,30 個沒有流失(模型預測錯了),那麼精確率是:

raw-image



這意味著模型預測的「流失」客戶中,有 70% 是正確的。


重點

精確率告訴我們「模型預測正類的結果有多準確」,重點是「錯誤預測為正類的次數」,即 FP 的數量。如果你不希望誤將「非流失」的客戶錯誤預測為「流失」,那麼你會希望精確率較高。


實際應用案例

  • 情境:

 醫療診斷中的癌症檢測(分類病人是否患有癌症)

  • 需求:

 當檢測結果顯示一個病人患有癌症時,這個結果應該高度可信。如果檢測說病人患有癌症,但實際上他是健康的,這將導致不必要的壓力和昂貴的進一步檢查。

  • 使用精確率的原因:

 你更關注於確保所有被檢測為陽性的病人實際上確實患有癌症,因此,你希望最大化精確率。這樣可以減少「假陽性」(即無病被檢測為患病)的情況。

  • 何時使用精確率:
  1. 當假陽性成本很高(如誤判一個健康人患病)。
  2. 當你想避免誤報(false positives)



召回率 (Recall)

定義

召回率是指在所有實際的正類樣本中,有多少被模型正確預測出來。換句話說,召回率衡量的是模型在 「實際正類的樣本中有多少被正確預測」


公式

raw-image



  • TP(True Positive,真正類): 被正確預測為正類的樣本數(實際為正,預測也為正)。
  • FN(False Negative,假負類): 被錯誤預測為負類的樣本數(實際為正,預測為負)。


舉例

假設實際上有 100 個流失的客戶,其中模型正確地預測了 70 個流失客戶,但有 30 個流失客戶沒有被預測出來,那麼召回率是:

raw-image



這意味著模型能夠召回 70% 的實際流失客戶。


重點

召回率告訴我們「模型對正類的樣本捕捉得有多好」,重點是「實際正類樣本未被預測為正類的次數」,即 FN 的數量。如果你希望能夠盡可能地識別所有流失客戶,那麼你會希望召回率較高。


實際應用案例

  • 情境:

 偵測詐欺交易(銀行系統要偵測哪些交易是詐欺)

  • 需求:

 銀行不想漏掉任何可疑的詐欺交易,即使這意味著有時候正常的交易可能會被標記為可疑。

  • 使用召回率的原因:

 這種情況下,偵測到的每一個詐欺交易都很重要,漏掉任何一個詐欺交易都可能導致重大損失。因此,召回率應該被優先考慮,即使這意味著會有更多「假陽性」(即正常交易被誤標為詐欺)。

  • 何時使用召回率:
  1. 當漏掉正類樣本的代價很高(如漏掉詐欺交易、患者診斷等)。
  2. 當需要最大化檢測能力



F1-score

定義

F1-score 是精確率 (Precision) 和召回率 (Recall) 的調和平均數,用來平衡兩者的關係,尤其在精確率和召回率之間有取捨時使用。


公式

raw-image




舉例

假設模型的精確率是 80%,召回率是 60%,那麼 F1-score 就是這兩者的調和平均數,代表模型在整體預測上平衡兩者的表現。


重點

F1-score 在類別不平衡的情況下尤為有用,當你需要在精確率和召回率之間取得平衡時,它是一個很好的綜合指標。F1-score 越高,表示模型在識別正類樣本的準確性和完整性上表現越好。


實際應用案例

  • 情境:

 資訊檢索系統(如搜索引擎要找到最相關的搜索結果)

  • 需求:

 搜索引擎應該找到盡可能多的相關搜索結果(召回率高),同時,返回的結果應該是高度相關的(精確率高)。在這裡,精確率和召回率同樣重要,需要在兩者之間找到一個平衡。

  • 使用 F1-score 的原因:

 如果一個系統找到了很多搜索結果,但大部分不相關(精確率低),或是找到了少數結果,但都是相關的(召回率低),都不是理想的情況。F1-score 是平衡精確率和召回率的指標,在這樣的情境下非常有用。

  • 何時使用 F1-score:
  1. 當你想在精確率和召回率之間取得平衡
  2. 當類別不平衡且精確率和召回率同樣重要
avatar-img
7會員
23內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
JayRay 的沙龍 的其他內容
本文探討了聚類算法中常用的效果評估指標,包括內部和外部指標,並詳細介紹了輪廓係數、群集內距離平方和(WCSS)及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點,適用於不同的聚類場景,有助於有效評估聚類質量,提升無監督學習的效能。
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
虛擬變數陷阱(Dummy Variable Trap)是指在進行One-Hot Encoding時,生成的虛擬變數之間存在完全多重共線性,影響回歸模型的準確性。透過具體的例子,本文探討瞭如何避免這個陷阱,以提升機器學習模型的效果與穩定性。
XGBoost(eXtreme Gradient Boosting)是一種基於梯度提升框架的機器學習算法,專注於高效的分類與迴歸問題。它廣泛應用於數據分析和競賽中,因其出色的模型訓練能力。本文探討 XGBoost 實際中的實作,適合希望掌握此技術的讀者,並對模型調參提供有價值的技巧與建議。
本篇文章介紹陰性(Negative)和陽性(Positive)的概念,這些術語源於統計學和醫學檢測,廣泛應用於二分類問題的預測模型表現評估。本文解釋了真陽性、真陰性、假陽性和假陰性的定義及其在不同應用場景(中的重要性,並探討瞭如何選擇合適的評估指標和調整模型閾值,以提高模型性能與業務決策的有效性。
多重共線性是指迴歸模型中,自變數(特徵)之間存在高度線性相關的現象,這會導致模型對各變數獨立影響估計的困難,並降低其解釋性和預測能力。本文將探討多重共線性的定義、成因、影響以及如何識別和解決這一問題,從而提升模型的穩定性和準確性。
本文探討了聚類算法中常用的效果評估指標,包括內部和外部指標,並詳細介紹了輪廓係數、群集內距離平方和(WCSS)及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點,適用於不同的聚類場景,有助於有效評估聚類質量,提升無監督學習的效能。
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
虛擬變數陷阱(Dummy Variable Trap)是指在進行One-Hot Encoding時,生成的虛擬變數之間存在完全多重共線性,影響回歸模型的準確性。透過具體的例子,本文探討瞭如何避免這個陷阱,以提升機器學習模型的效果與穩定性。
XGBoost(eXtreme Gradient Boosting)是一種基於梯度提升框架的機器學習算法,專注於高效的分類與迴歸問題。它廣泛應用於數據分析和競賽中,因其出色的模型訓練能力。本文探討 XGBoost 實際中的實作,適合希望掌握此技術的讀者,並對模型調參提供有價值的技巧與建議。
本篇文章介紹陰性(Negative)和陽性(Positive)的概念,這些術語源於統計學和醫學檢測,廣泛應用於二分類問題的預測模型表現評估。本文解釋了真陽性、真陰性、假陽性和假陰性的定義及其在不同應用場景(中的重要性,並探討瞭如何選擇合適的評估指標和調整模型閾值,以提高模型性能與業務決策的有效性。
多重共線性是指迴歸模型中,自變數(特徵)之間存在高度線性相關的現象,這會導致模型對各變數獨立影響估計的困難,並降低其解釋性和預測能力。本文將探討多重共線性的定義、成因、影響以及如何識別和解決這一問題,從而提升模型的穩定性和準確性。
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。