搞懂真陽性、假陽性：用混淆矩陣（Confusion Matrix）破解留存率的秘密

更新於 2025/03/20發佈於 2025/03/20閱讀時間約 7 分鐘

數據拆解用戶「留下來」的真相

身為產品經理或數據分析師，你一定常常盯著後台的留存率，心想：「到底是誰偷走了我的用戶？」其實，留存率就像感情一樣，外表看起來一切順利，但裡頭可能暗藏許多小問題。這時候，「混淆矩陣（Confusion Matrix）」就像是情感專家，可以告訴我們到底誰是真心，誰只是在曖昧。

別被混淆矩陣這個名字嚇到，它其實是一個簡單又好用的工具，能幫助我們更清楚地分類和分析用戶行為。接下來就讓我用最接地氣的方式帶你快速掌握！

簡單來說，混淆矩陣是一種評估「分類預測準確度」的工具，能幫助我們比較「系統的預測」和「實際結果」之間的差異。舉個例子，假設我們預測某位用戶會留下來，混淆矩陣可以幫助我們檢視這個預測到底準不準，進而分析產品的影響力。

當我們將「預測結果」與「實際行為」交叉比對後，會出現四種情況：

✅ 真陽性（True Positive, TP）：預測用戶會留下，而且他真的留下了，這是我們最愛看到的。

❌ 假陽性（False Positive, FP）：預測用戶會留下，但他卻默默消失，這表示可能我們看錯了某些訊號。

✅ 真陰性（True Negative, TN）：預測用戶會離開，他也真的離開了，代表我們的分析非常到位。

❌ 假陰性（False Negative, FN）：預測用戶會離開，但他反而繼續使用，這類用戶可能有特別原因留下來，需要額外研究一下。

透過這四個分類，我們能更清楚地知道產品哪些地方做對了，哪些地方需要優化。

混淆矩陣除了幫助我們拆解用戶行為，還有幾個關鍵數據指標，能進一步衡量模型的準確性：

陽性預測值（PPV, Positive Predictive Value）：當系統預測某人會留下來，實際留下的比例是多少？這決定了我們的標準是否足夠準確。
陰性預測值（NPV, Negative Predictive Value）：當系統預測某人會流失，他真的離開的機率有多高？這能反映我們對流失行為的判斷是否正確。
靈敏度（Sensitivity）：在所有真正留下的用戶中，系統能成功預測的比例是多少？數值越高，代表我們的模型越能捕捉留下來的用戶。
特異度（Specificity）：在所有真正流失的用戶中，系統能成功預測的比例是多少？能確保我們不誤判那些確實會離開的用戶。

這些指標的平衡對優化留存策略至關重要，能避免模型過度偏向某一邊，導致錯誤決策。

上方這張表格顯示的是 某事件的發生頻率 與 用戶留存情況 的關係。其中數據的排列方式為：

數據解讀
- PPV（陽性預測值）= TP / (TP + FP) = 14 / (14 + 1) = 93.3%，這代表當系統預測「事件 ≥10 次的用戶會留下來」時，93.3% 的情況是正確的，也就是這個標準的準確度很高。
- Sensitivity（靈敏度）= TP / (TP + FN) = 14 / (14 + 30) = 31.8%，但靈敏度很低，代表在所有真正留存的用戶中，系統只抓到了 31.8%，還有大量用戶（30 位）沒有達到「10 次」的標準，卻仍然成功留存（False Negative）。
結論與建議

這類事件具備高 PPV，但 Sensitivity 低，代表它是一個較準確的預測指標，但可能太嚴格，導致許多潛在留存用戶被忽略。

👉 優化策略：可以嘗試降低門檻，例如改為「≥ 8 次」來提高 Sensitivity，進一步觀察是否能捕捉到更多潛在留存用戶。

數據解讀
- NPV（陰性預測值）= TN / (TN + FN) = 46 / (46 + 30) = 60.5%，這代表當系統預測「事件發生次數 <10 次的用戶會流失」時，準確率為 60.5%，並不算特別高。
- Specificity（特異度）= TN / (TN + FP) = 46 / (46 + 1) = 97.9%，特異度很高，代表系統在判定「哪些用戶不會留下來」時 極為準確。
結論與建議

這類事件在「排除無效用戶」方面表現不錯，但因為 NPV 只有 60.5%，表示「事件 <10 次」的用戶中，仍有相當一部分人會留下來（False Negative 高）。

👉 優化策略：可嘗試結合其他行為數據（例如「互動時長」或「社交參與度」），以降低 False Negative，提升預測準確性。

就算掌握了混淆矩陣的分類與指標，也可能在實際應用時踩到陷阱，造成誤判與錯誤決策。以下是幾個常見的問題與解方：

相關性 ≠ 因果關係：混淆矩陣能找出相關性，但不代表就一定是因果關係，務必要透過實驗（如 A/B 測試）來進一步驗證。
忽略樣本量限制：如果樣本量太少，指標計算會失真，容易導致錯誤推論。建議在分析前先評估樣本數是否足以支撐結論，並在可能的範圍內擴大數據收集。
只關注單一象限：有時只想提升真陽性（TP）或降低假陰性（FN），卻忽視其他象限提供的重要線索。建議每個象限都要關注，特別是高假陽性與高假陰性的背後原因，可能蘊藏關鍵改善點。
門檻設定不合理：在門檻過高或過低的情況下，可能導致 Sensitivity、Specificity、PPV、NPV 等指標失衡，無法精準反映真實情況。可嘗試多次調整門檻，尋找平衡點。
追蹤週期過短或過長：若留存週期與使用者的自然行為週期不匹配，指標就會失真。務必根據產品特性和用戶行為模式，選擇合適的追蹤週期（例如 7 天、14 天或 30 天）。