更新於 2024/09/05發佈於 2024/09/05閱讀時間約 10 分鐘

【資料分析】資料分析中的陽性、陰性、假陽性、假陰性是什麼?

陰性與陽性的概念源自於統計學和醫學統計，尤其是在二分類問題中的評估指標中經常使用這些術語。這些概念最早來自醫學檢測中的「陽性結果」和「陰性結果」，但隨著統計學、機器學習和數據分析的發展，這些術語被廣泛應用於二元分類問題中，用來描述預測模型的表現。

# 可使用目錄功能快速確認要閱覽的主題

陽性（Positive）和陰性（Negative）

陽性（Positive，P）：指模型的目標類別，通常是我們感興趣的「正類」（例如在疾病診斷中，患病的樣本為「陽性」）。在實際標籤中，陽性樣本的標籤通常是 1。
陰性（Negative，N）：指另一個類別，通常是「負類」（例如在疾病診斷中，沒有患病的樣本為「陰性」）。在實際標籤中，陰性樣本的標籤通常是 0。

真陽性（True Positive, TP）和真陰性（True Negative, TN）

真陽性（True Positive, TP）：模型正確地將實際為正類（陽性）的樣本預測為正類（即模型正確識別了陽性樣本）。
- 例如：實際患病，且模型預測也為患病。
真陰性（True Negative, TN）：模型正確地將實際為負類（陰性）的樣本預測為負類（即模型正確識別了陰性樣本）。
- 例如：實際未患病，且模型預測也為未患病。

假陽性（False Positive, FP）和假陰性（False Negative, FN）

假陽性（False Positive, FP）：模型錯誤地將實際為負類（陰性）的樣本預測為正類（陽性）。這是一種錯誤的預測，因為模型誤判了陰性樣本。
- 例如：實際未患病，但模型預測為患病。
- 在某些應用領域，假陽性也被稱為誤報（False Alarm）。
假陰性（False Negative, FN）：模型錯誤地將實際為正類（陽性）的樣本預測為負類（陰性）。這也是一種錯誤預測，因為模型未能檢測到陽性樣本。
- 例如：實際患病，但模型預測為未患病。
- 在某些應用領域，假陰性也被稱為漏報（Miss）。

與混淆矩陣的關係

上述四個指標可以通過混淆矩陣來表示。混淆矩陣是一個 2x2 的矩陣，用來總結分類模型的預測結果：

具體例子：

假設我們有一個疾病診斷模型，用來預測患者是否患有某種疾病（1 代表患病，0 代表健康）。那麼：

真陽性（TP）：患者實際患病，模型也預測為患病。
真陰性（TN）：患者實際健康，模型也預測為健康。
假陽性（FP）：患者實際健康，但模型錯誤地預測為患病。
假陰性（FN）：患者實際患病，但模型錯誤地預測為健康。

這些指標的意義：

假陽性（FP）：在某些情境下，假陽性可能會引起不必要的後果。例如，診斷中誤診為患病會導致不必要的治療或焦慮。
假陰性（FN）：在某些情況下，假陰性可能更為嚴重，因為它意味著模型未能檢測到實際的陽性樣本（例如，患病的人沒有被診斷出來）。

相關評估指標：

精確率（Precision）：衡量預測為正類的樣本中有多少是真正的正類。

召回率（Recall 或 TPR）：衡量實際為正類的樣本中有多少被正確預測為正類。

F1 分數：精確率和召回率的調和平均數，用來平衡兩者。

評估指標參考資料：

【資料分析】python機器學習-使用不同的方法來評估模型準確率

了解資料的真陰性、真陽性、假陰性、假陽性可以幹嘛?

了解資料中的真陰性（True Negative, TN）、真陽性（True Positive, TP）、假陰性（False Negative, FN） 和 假陽性（False Positive, FP） 是評估分類模型性能的重要基礎，這些信息對於數據分析和決策過程非常有用，不僅僅是評估模型準確性，還有助於你更好地理解模型的預測行為，並根據具體應用場景進行模型調整與優化，從而達到業務目標。

1. 評估分類模型的準確性

真陰性、真陽性、假陰性、假陽性 是構建 混淆矩陣 的核心元素，混淆矩陣提供了模型對不同類別預測的詳細信息。通過混淆矩陣，你可以確定模型在哪些地方表現良好（如識別正確的正類和負類）以及在哪些地方需要改進（如錯誤分類的比例）。
在不同的應用場景中，這些結果有不同的意義。例如，在醫學診斷中，假陰性可能比假陽性更為嚴重，而在垃圾郵件過濾中，假陽性可能會對用戶體驗造成更大影響。

2. 選擇合適的評估指標

根據真陽性、真陰性、假陰性和假陽性，你可以計算精確率（Precision）、召回率（Recall）、F1 分數等多種評估指標，這些指標能夠提供模型在特定情況下的表現。
例如：
- 精確率（Precision）衡量在所有被預測為正類的樣本中，有多少是真正的正類樣本，對應於 TP 和 FP。如果假陽性較多，精確率會很低。
- 召回率（Recall 或靈敏度）衡量所有實際正類樣本中有多少被正確預測，對應於 TP 和 FN。如果假陰性較多，召回率會很低。
這些指標幫助你根據實際應用場景選擇適合的模型。某些情況下，你可能更關心提高精確率，而在其他情況下可能更需要提高召回率。

3. 權衡錯誤的成本

假陰性 和 假陽性 在實際應用中可能有不同的成本。理解它們可以幫助你做出更好的決策。
- 假陰性（FN）：在疾病診斷中，假陰性表示患病的患者被誤診為健康，這可能導致病情延誤，因此假陰性的成本非常高。
- 假陽性（FP）：在欺詐檢測中，假陽性表示一筆正常的交易被誤判為欺詐交易，這可能會導致用戶體驗不佳，或不必要的審核過程。
了解假陰性和假陽性的重要性，可以根據不同場景來調整模型的閾值，從而達到最佳的結果。例如，對於重要性高的應用場景，你可以選擇讓模型偏向於降低假陰性，甚至以提高假陽性為代價，反之亦然。

4. 調整模型閾值以達到最佳效果

了解真陽性、假陽性、真陰性、假陰性可以幫助你調整模型的分類閾值。在二分類問題中，模型通常會根據某個閾值來判斷輸出是正類還是負類。如果你希望減少假陰性，可以將閾值調低，讓更多樣本被預測為正類；如果你希望減少假陽性，可以將閾值調高。
調整模型閾值有助於根據具體的應用場景來優化模型，特別是在錯誤代價不對稱的情況下。

5. 提升業務決策

將分類結果應用於業務場景中，理解這些結果能幫助你做出更好的決策。
- 在市場營銷中，假陽性（FP）可能導致對不感興趣的用戶發送推廣信息，增加成本；假陰性（FN）則可能導致錯過潛在客戶的機會。
- 在銀行業中，假陽性可能導致不必要的風控行動（如拒絕正當的貸款申請），而假陰性則可能錯過對高風險客戶的防範。

6. 優化模型性能

通過理解這四個指標，你可以診斷模型的性能瓶頸。例如，如果模型的假陽性率（FP）過高，你可能需要提高精確率，這可以通過優化特徵或調整模型參數來實現。了解錯誤預測的來源和類型，可以幫助你有針對性地改善模型。
在極度不平衡的數據集上，模型可能傾向於忽略少數類別（例如將所有樣本預測為多數類別）。理解假陰性與假陽性可以幫助你通過調整類別權重、**重抽樣技術（如 SMOTE）**等方法來改進模型。

於資料分析中具體的應用實例

1. 醫療診斷

問題：使用機器學習模型來預測患者是否患有某種疾病（如癌症、心臟病等）。陽性（Positive）指的是患者實際患病，陰性（Negative）指的是患者實際未患病。
應用：當我們用模型預測一個人是否患病時，會出現四種結果：
- 真陽性（TP）：模型正確預測患者患病。
- 真陰性（TN）：模型正確預測患者未患病。
- 假陽性（FP）：模型錯誤地預測健康的人為患病，這會導致不必要的檢查或治療。
- 假陰性（FN）：模型錯誤地預測患病的人為健康，這會導致病情未被及時發現。
使用指標：醫療診斷中，假陰性（FN）通常更為關鍵，因為錯過診斷會導致患者的風險增加。此時，召回率（Recall，也叫靈敏度）非常重要，因為它衡量了模型正確檢測到實際患病者的能力。

2. 欺詐檢測

問題：用模型預測信用卡交易是否是欺詐行為。陽性表示交易是欺詐，陰性表示交易正常。
應用：
- 真陽性（TP）：模型正確檢測到欺詐交易。
- 假陽性（FP）：模型錯誤地標記了正常交易為欺詐，這可能導致正當交易被拒。
- 假陰性（FN）：模型錯過了實際的欺詐交易，導致欺詐行為未被發現。
使用指標：在欺詐檢測中，假陽性和假陰性的成本都很高。假陽性會影響用戶體驗，而假陰性則可能導致資金損失。此時，精確率（Precision）和召回率之間的平衡非常重要，F1 分數 可以幫助同時考慮精確率和召回率。

3. 垃圾郵件檢測

問題：用模型來預測一封電子郵件是否是垃圾郵件。陽性表示郵件是垃圾郵件，陰性表示郵件是正常郵件。
應用：
- 真陽性（TP）：模型正確檢測到垃圾郵件。
- 假陽性（FP）：模型錯誤地標記正常郵件為垃圾郵件，可能導致用戶錯過重要郵件。
- 假陰性（FN）：模型錯過了實際的垃圾郵件，讓它進入了收件箱。
使用指標：假陽性在垃圾郵件檢測中可能導致用戶對系統的不信任，假陰性則會讓垃圾郵件進入收件箱。因此，精確率（減少假陽性）和召回率（減少假陰性）都是關鍵。

4. 信用評分模型

問題：銀行或金融機構使用模型來預測申請貸款的客戶是否會違約。陽性表示客戶會違約，陰性表示客戶不會違約。
應用：
- 真陽性（TP）：模型正確預測客戶會違約。
- 假陽性（FP）：模型錯誤地預測未違約客戶為違約，這會導致不必要的貸款拒絕。
- 假陰性（FN）：模型錯誤地預測違約客戶為不違約，可能會導致資金損失。
使用指標：在這種情況下，假陰性（FN）的成本非常高，因為放貸給違約客戶會造成損失，因此需要提高模型的召回率。

5. 入侵檢測系統（IDS）

問題：網絡安全領域中，入侵檢測系統用於識別惡意活動。陽性表示檢測到的活動是惡意的，陰性表示正常活動。
應用：
- 真陽性（TP）：正確檢測到網絡入侵。
- 假陽性（FP）：正常流量被誤判為入侵，可能會導致網絡流量受到不必要的阻擋。
- 假陰性（FN）：未檢測到實際存在的網絡入侵，可能導致安全漏洞。
使用指標：假陰性（FN）的風險較高，因為它會導致未能發現的網絡入侵。因此，系統通常需要優化召回率。

6. 客戶流失預測

問題：企業希望預測哪些客戶會流失。陽性表示客戶會流失，陰性表示客戶不會流失。
應用：
- 真陽性（TP）：模型正確預測到即將流失的客戶。
- 假陽性（FP）：模型錯誤地標記了一個不會流失的客戶，這可能導致不必要的營銷成本。
- 假陰性（FN）：模型未能預測即將流失的客戶，導致企業無法及時采取行動挽留。
使用指標：在這種情況下，減少假陰性（FN）非常重要，因此，召回率是關鍵指標。

分享至

成為作者繼續創作的動力吧！

JayRay 資料科學-學習筆記

追蹤

【資料分析】資料分析中的陽性、陰性、假陽性、假陰性是什麼?

陽性（Positive）和陰性（Negative）

真陽性（True Positive, TP）和真陰性（True Negative, TN）

假陽性（False Positive, FP）和假陰性（False Negative, FN）

與混淆矩陣的關係

了解資料的真陰性、真陽性、假陰性、假陽性可以幹嘛?

1. 評估分類模型的準確性

2. 選擇合適的評估指標

3. 權衡錯誤的成本

4. 調整模型閾值以達到最佳效果

5. 提升業務決策

6. 優化模型性能

於資料分析中具體的應用實例

1. 醫療診斷

2. 欺詐檢測

3. 垃圾郵件檢測

4. 信用評分模型

5. 入侵檢測系統（IDS）

6. 客戶流失預測

JayRay 的沙龍的其他內容

你可能也想看

發表回應

【資料分析】資料分析中的陽性、陰性、假陽性、假陰性是什麼?

陽性（Positive）和陰性（Negative）

真陽性（True Positive, TP）和真陰性（True Negative, TN）

假陽性（False Positive, FP）和假陰性（False Negative, FN）

與混淆矩陣的關係

了解資料的真陰性、真陽性、假陰性、假陽性可以幹嘛?

1. 評估分類模型的準確性

2. 選擇合適的評估指標

3. 權衡錯誤的成本

4. 調整模型閾值以達到最佳效果

5. 提升業務決策

6. 優化模型性能

於資料分析中具體的應用實例

1. 醫療診斷

2. 欺詐檢測

3. 垃圾郵件檢測

4. 信用評分模型

5. 入侵檢測系統（IDS）

6. 客戶流失預測

JayRay 的沙龍 的其他內容

你可能也想看

發表回應

JayRay 的沙龍的其他內容