【資料分析】資料分析中的陽性、陰性、假陽性、假陰性是什麼?

2024/09/05 更新2024/09/05 發佈閱讀 10 分鐘

陰性與陽性的概念源自於統計學和醫學統計，尤其是在二分類問題中的評估指標中經常使用這些術語。這些概念最早來自醫學檢測中的「陽性結果」和「陰性結果」，但隨著統計學、機器學習和數據分析的發展，這些術語被廣泛應用於二元分類問題中，用來描述預測模型的表現。

# 可使用目錄功能快速確認要閱覽的主題

陽性（Positive）和陰性（Negative）

陽性（Positive，P）：指模型的目標類別，通常是我們感興趣的「正類」（例如在疾病診斷中，患病的樣本為「陽性」）。在實際標籤中，陽性樣本的標籤通常是 1。
陰性（Negative，N）：指另一個類別，通常是「負類」（例如在疾病診斷中，沒有患病的樣本為「陰性」）。在實際標籤中，陰性樣本的標籤通常是 0。

真陽性（True Positive, TP）和真陰性（True Negative, TN）

真陽性（True Positive, TP）：模型正確地將實際為正類（陽性）的樣本預測為正類（即模型正確識別了陽性樣本）。
- 例如：實際患病，且模型預測也為患病。
真陰性（True Negative, TN）：模型正確地將實際為負類（陰性）的樣本預測為負類（即模型正確識別了陰性樣本）。
- 例如：實際未患病，且模型預測也為未患病。

假陽性（False Positive, FP）和假陰性（False Negative, FN）

假陽性（False Positive, FP）：模型錯誤地將實際為負類（陰性）的樣本預測為正類（陽性）。這是一種錯誤的預測，因為模型誤判了陰性樣本。
- 例如：實際未患病，但模型預測為患病。
- 在某些應用領域，假陽性也被稱為誤報（False Alarm）。
假陰性（False Negative, FN）：模型錯誤地將實際為正類（陽性）的樣本預測為負類（陰性）。這也是一種錯誤預測，因為模型未能檢測到陽性樣本。
- 例如：實際患病，但模型預測為未患病。
- 在某些應用領域，假陰性也被稱為漏報（Miss）。

與混淆矩陣的關係

上述四個指標可以通過混淆矩陣來表示。混淆矩陣是一個 2x2 的矩陣，用來總結分類模型的預測結果：

具體例子：

假設我們有一個疾病診斷模型，用來預測患者是否患有某種疾病（1 代表患病，0 代表健康）。那麼：

真陽性（TP）：患者實際患病，模型也預測為患病。
真陰性（TN）：患者實際健康，模型也預測為健康。
假陽性（FP）：患者實際健康，但模型錯誤地預測為患病。
假陰性（FN）：患者實際患病，但模型錯誤地預測為健康。

這些指標的意義：

假陽性（FP）：在某些情境下，假陽性可能會引起不必要的後果。例如，診斷中誤診為患病會導致不必要的治療或焦慮。
假陰性（FN）：在某些情況下，假陰性可能更為嚴重，因為它意味著模型未能檢測到實際的陽性樣本（例如，患病的人沒有被診斷出來）。

相關評估指標：

精確率（Precision）：衡量預測為正類的樣本中有多少是真正的正類。

召回率（Recall 或 TPR）：衡量實際為正類的樣本中有多少被正確預測為正類。

F1 分數：精確率和召回率的調和平均數，用來平衡兩者。

評估指標參考資料：

【資料分析】python機器學習-使用不同的方法來評估模型準確率

了解資料的真陰性、真陽性、假陰性、假陽性可以幹嘛?

了解資料中的真陰性（True Negative, TN）、真陽性（True Positive, TP）、假陰性（False Negative, FN） 和 假陽性（False Positive, FP） 是評估分類模型性能的重要基礎，這些信息對於數據分析和決策過程非常有用，不僅僅是評估模型準確性，還有助於你更好地理解模型的預測行為，並根據具體應用場景進行模型調整與優化，從而達到業務目標。

1. 評估分類模型的準確性

真陰性、真陽性、假陰性、假陽性 是構建 混淆矩陣 的核心元素，混淆矩陣提供了模型對不同類別預測的詳細信息。通過混淆矩陣，你可以確定模型在哪些地方表現良好（如識別正確的正類和負類）以及在哪些地方需要改進（如錯誤分類的比例）。
在不同的應用場景中，這些結果有不同的意義。例如，在醫學診斷中，假陰性可能比假陽性更為嚴重，而在垃圾郵件過濾中，假陽性可能會對用戶體驗造成更大影響。

2. 選擇合適的評估指標

根據真陽性、真陰性、假陰性和假陽性，你可以計算精確率（Precision）、召回率（Recall）、F1 分數等多種評估指標，這些指標能夠提供模型在特定情況下的表現。
例如：
- 精確率（Precision）衡量在所有被預測為正類的樣本中，有多少是真正的正類樣本，對應於 TP 和 FP。如果假陽性較多，精確率會很低。
- 召回率（Recall 或靈敏度）衡量所有實際正類樣本中有多少被正確預測，對應於 TP 和 FN。如果假陰性較多，召回率會很低。
這些指標幫助你根據實際應用場景選擇適合的模型。某些情況下，你可能更關心提高精確率，而在其他情況下可能更需要提高召回率。

3. 權衡錯誤的成本

假陰性 和 假陽性 在實際應用中可能有不同的成本。理解它們可以幫助你做出更好的決策。
- 假陰性（FN）：在疾病診斷中，假陰性表示患病的患者被誤診為健康，這可能導致病情延誤，因此假陰性的成本非常高。
- 假陽性（FP）：在欺詐檢測中，假陽性表示一筆正常的交易被誤判為欺詐交易，這可能會導致用戶體驗不佳，或不必要的審核過程。
了解假陰性和假陽性的重要性，可以根據不同場景來調整模型的閾值，從而達到最佳的結果。例如，對於重要性高的應用場景，你可以選擇讓模型偏向於降低假陰性，甚至以提高假陽性為代價，反之亦然。

4. 調整模型閾值以達到最佳效果

了解真陽性、假陽性、真陰性、假陰性可以幫助你調整模型的分類閾值。在二分類問題中，模型通常會根據某個閾值來判斷輸出是正類還是負類。如果你希望減少假陰性，可以將閾值調低，讓更多樣本被預測為正類；如果你希望減少假陽性，可以將閾值調高。
調整模型閾值有助於根據具體的應用場景來優化模型，特別是在錯誤代價不對稱的情況下。

5. 提升業務決策

將分類結果應用於業務場景中，理解這些結果能幫助你做出更好的決策。
- 在市場營銷中，假陽性（FP）可能導致對不感興趣的用戶發送推廣信息，增加成本；假陰性（FN）則可能導致錯過潛在客戶的機會。
- 在銀行業中，假陽性可能導致不必要的風控行動（如拒絕正當的貸款申請），而假陰性則可能錯過對高風險客戶的防範。

6. 優化模型性能

通過理解這四個指標，你可以診斷模型的性能瓶頸。例如，如果模型的假陽性率（FP）過高，你可能需要提高精確率，這可以通過優化特徵或調整模型參數來實現。了解錯誤預測的來源和類型，可以幫助你有針對性地改善模型。
在極度不平衡的數據集上，模型可能傾向於忽略少數類別（例如將所有樣本預測為多數類別）。理解假陰性與假陽性可以幫助你通過調整類別權重、**重抽樣技術（如 SMOTE）**等方法來改進模型。

於資料分析中具體的應用實例

1. 醫療診斷

問題：使用機器學習模型來預測患者是否患有某種疾病（如癌症、心臟病等）。陽性（Positive）指的是患者實際患病，陰性（Negative）指的是患者實際未患病。
應用：當我們用模型預測一個人是否患病時，會出現四種結果：
- 真陽性（TP）：模型正確預測患者患病。
- 真陰性（TN）：模型正確預測患者未患病。
- 假陽性（FP）：模型錯誤地預測健康的人為患病，這會導致不必要的檢查或治療。
- 假陰性（FN）：模型錯誤地預測患病的人為健康，這會導致病情未被及時發現。
使用指標：醫療診斷中，假陰性（FN）通常更為關鍵，因為錯過診斷會導致患者的風險增加。此時，召回率（Recall，也叫靈敏度）非常重要，因為它衡量了模型正確檢測到實際患病者的能力。

2. 欺詐檢測

問題：用模型預測信用卡交易是否是欺詐行為。陽性表示交易是欺詐，陰性表示交易正常。
應用：
- 真陽性（TP）：模型正確檢測到欺詐交易。
- 假陽性（FP）：模型錯誤地標記了正常交易為欺詐，這可能導致正當交易被拒。
- 假陰性（FN）：模型錯過了實際的欺詐交易，導致欺詐行為未被發現。
使用指標：在欺詐檢測中，假陽性和假陰性的成本都很高。假陽性會影響用戶體驗，而假陰性則可能導致資金損失。此時，精確率（Precision）和召回率之間的平衡非常重要，F1 分數 可以幫助同時考慮精確率和召回率。

3. 垃圾郵件檢測

問題：用模型來預測一封電子郵件是否是垃圾郵件。陽性表示郵件是垃圾郵件，陰性表示郵件是正常郵件。
應用：
- 真陽性（TP）：模型正確檢測到垃圾郵件。
- 假陽性（FP）：模型錯誤地標記正常郵件為垃圾郵件，可能導致用戶錯過重要郵件。
- 假陰性（FN）：模型錯過了實際的垃圾郵件，讓它進入了收件箱。
使用指標：假陽性在垃圾郵件檢測中可能導致用戶對系統的不信任，假陰性則會讓垃圾郵件進入收件箱。因此，精確率（減少假陽性）和召回率（減少假陰性）都是關鍵。

4. 信用評分模型

問題：銀行或金融機構使用模型來預測申請貸款的客戶是否會違約。陽性表示客戶會違約，陰性表示客戶不會違約。
應用：
- 真陽性（TP）：模型正確預測客戶會違約。
- 假陽性（FP）：模型錯誤地預測未違約客戶為違約，這會導致不必要的貸款拒絕。
- 假陰性（FN）：模型錯誤地預測違約客戶為不違約，可能會導致資金損失。
使用指標：在這種情況下，假陰性（FN）的成本非常高，因為放貸給違約客戶會造成損失，因此需要提高模型的召回率。

5. 入侵檢測系統（IDS）

問題：網絡安全領域中，入侵檢測系統用於識別惡意活動。陽性表示檢測到的活動是惡意的，陰性表示正常活動。
應用：
- 真陽性（TP）：正確檢測到網絡入侵。
- 假陽性（FP）：正常流量被誤判為入侵，可能會導致網絡流量受到不必要的阻擋。
- 假陰性（FN）：未檢測到實際存在的網絡入侵，可能導致安全漏洞。
使用指標：假陰性（FN）的風險較高，因為它會導致未能發現的網絡入侵。因此，系統通常需要優化召回率。

6. 客戶流失預測

問題：企業希望預測哪些客戶會流失。陽性表示客戶會流失，陰性表示客戶不會流失。
應用：
- 真陽性（TP）：模型正確預測到即將流失的客戶。
- 假陽性（FP）：模型錯誤地標記了一個不會流失的客戶，這可能導致不必要的營銷成本。
- 假陰性（FN）：模型未能預測即將流失的客戶，導致企業無法及時采取行動挽留。
使用指標：在這種情況下，減少假陰性（FN）非常重要，因此，召回率是關鍵指標。