這篇整理 iPAS 初級考綱裡「模型評估指標」這塊,從混淆矩陣出發,延伸到精確率與召回率的判斷邏輯。自己第一次讀到這塊的時候腦袋真的很混淆,後來用 COVID-19 快篩的場景對照,才把四個格子的定義搞清楚。
一、混淆矩陣:四種判斷結果
混淆矩陣是把模型的預測結果跟實際結果交叉比對之後,分成四種情境:
TP(真陽性,True Positive)——實際是陽性,模型預測也是陽性。抓對了。
TN(真陰性,True Negative)——實際是陰性,模型預測也是陰性。正確排除了。
FP(偽陽性,False Positive)——實際是陰性,但模型預測成陽性。誤報,虛驚一場。後果是不必要的資源消耗(例如不必要的隔離或 PCR 檢測)。
FN(偽陰性,False Negative)——實際是陽性,但模型預測成陰性。漏掉了。後果通常比 FP 嚴重——感染者以為安全而繼續活動,疫情可能擴散。
這四個格子對應的就是「判對的兩種情況」加「判錯的兩種情況」。考題裡最常考的是 FP 和 FN 的定義,以及它們各自在不同場景下的代價差異。
二、準確率(Accuracy)的盲點
準確率 = (TP + TN)÷ 全部樣本。
看起來直覺,但有一個經典的陷阱——當資料嚴重不平衡時,準確率會失真。
例如全國 99.9% 的人都未感染,這時一個「不論任何輸入都猜陰性」的模型,準確率高達 99.9%,但它完全抓不到任何一個感染者。這就是「準確度悖論」。
這個陷阱在考題裡很常出現,通常以「資料不平衡」「模型準確率高但實際沒用」這類情境描述來測。遇到這種情境,答案方向不是看準確率,而是看精確率或召回率。
三、精確率(Precision)與召回率(Recall):蹺蹺板的兩端
精確率(Precision)——在所有被模型預測為陽性的樣本裡,真的是陽性的比例。
公式:TP ÷(TP + FP)
白話問句:「模型說『是』的時候,有多少比例說對了?」
追求精確率,代表在意的是「不要誤報」,也就是降低 FP。
適用場景:PCR 確診這類判定後會有嚴重後果(隔離、治療)的情境,誤報的代價高,寧可漏掉一些,也要確保陽性判定是準的。
召回率(Recall)——在所有實際是陽性的樣本裡,被模型成功找出來的比例。
公式:TP ÷(TP + FN)
白話問句:「所有真正的陽性,有多少比例被模型找到了?」
追求召回率,代表在意的是「不要漏掉」,也就是降低 FN。
適用場景:疫情初期的大規模普篩,目標是儘快找出所有潛在感染者,漏掉一個的代價(疫情擴散)遠高於多抓幾個偽陽性的代價。
四、場景決定指標的選擇
精確率和召回率是蹺蹺板——要提高精確率,通常會讓召回率下降;要提高召回率,通常會讓精確率下降。
選哪個指標,由業務目標和錯誤代價決定:
- FP 代價高(誤報後果嚴重)→ 優先精確率
- FN 代價高(漏報後果嚴重)→ 優先召回率
除了疾病篩檢,這個框架在其他場景也適用:垃圾郵件偵測(FP 代價是重要信件被擋下,FN 代價是垃圾信進收件匣)、金融詐欺偵測(FN 代價通常遠高於 FP)、醫療診斷(FN 代價通常遠高於 FP)。
自己整理下來的備考方向
一、混淆矩陣的四個格子要能用自己的語言說清楚。考題很常用描述情境(「模型把健康的人判定為患者」)來問對應的是哪個格子,記定義不如記「實際是什麼、預測是什麼」這個判斷框架。
二、準確度悖論是必考的陷阱。遇到「資料不平衡」的情境描述,準確率不是可靠的評估指標,要改用精確率、召回率或 F1 分數。
三、精確率 vs 召回率的選擇邏輯用「哪種錯誤代價更高」來判斷。FP 代價高選精確率,FN 代價高選召回率。這個框架記住了,不管考題換什麼場景都能套用。
四、這篇跟之前整理過的資料不平衡處理章節(115.02 版考綱更新)是連動的——資料不平衡是導致準確度悖論的根源,處理方式(重採樣、調整權重)是讓評估指標重新有意義的前提。
混淆矩陣這塊在考題裡出現的頻率很高,而且常跟資料不平衡、模型選擇一起出現。把這幾個概念的關聯建立起來,遇到複合情境題會好判斷很多。




















