AI時代系列(3) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》
40/100 第四週:監督學習(分類)
40. 評估分類模型(Precision, Recall, F1-score, ROC-AUC) 🎯 不同的指標適用於不同場景,精準度 vs 召回率該怎麼選?
本章介紹了機器學習中最常用的分類方法,從基礎到進階,涵蓋以下重點:
節次 主題 重點摘要
4.1 二元 vs 多類別分類 ⚖ 分類問題分為「是/否」二元分類與「紅/藍/綠」多類別分類,策略不同。
4.2 邏輯回歸(Logistic Regression) 📉 本質是分類演算法,適合二元分類,預測機率並轉為 0 或 1。
4.3 K 近鄰分類器(KNN) 🏃♂️ 沒有模型訓練過程,直接依照最近鄰居決定類別,適合小型數據。
4.4 支援向量機(SVM) 🏗 找出最佳超平面分隔不同類別,特別適合高維度資料。
4.5 決策樹與隨機森林 🌳 決策樹邏輯清楚、易理解,隨機森林結合多棵樹降低過擬合。
4.6 梯度提升機(XGBoost, LightGBM) 🚀 集成學習王者,專為比賽與實務調校而生,速度快且準確。
4.7 貝葉斯分類器(Naive Bayes) 🎲 基於機率運算,適合文本分類、垃圾郵件過濾、情感分析。
4.8 神經網路分類(ANN / MLP) 🧠 適合學習複雜非線性模式,應用於圖像、語音、文本。
4.9 多類別分類與 One-vs-All 技術 🎨 將多類別問題拆解為多個二元分類,簡單實用,通用性強。
________________________________________
🎯 分類模型評估指標(重點整理)
分類問題不是只看「準確率(Accuracy)」!以下指標幫你判斷模型好壞:
四個常見的分類模型評估指標,各有適用場景:
Precision(精準率) 衡量模型預測為正的案例中,有多少是真正的正例,適合強調「錯殺不漏判」的情境,如詐騙偵測;
Recall(召回率) 則關注所有實際為正的案例中,有多少被成功辨識出來,適用於「寧可多抓也不能漏抓」的任務,如癌症篩檢;
F1-score 是精準率與召回率的加權平均,用於兩者都同樣重要時的整體判斷;
而 ROC-AUC 是一個綜合性指標,分數越接近 1 表示模型越優秀,特別適合處理樣本不平衡的資料集,例如詐騙或罕見疾病檢測。這些指標能協助依任務需求選擇最合適的評估標準。
________________________________________
📌 典型測驗題範例(附答案解析)
________________________________________
Q1:以下哪一個算法最適合用來處理高維度特徵的分類問題?
A. KNN
B. 決策樹
C. 支援向量機(SVM)
D. 貝葉斯分類器
✅ 答案:C
解析:SVM 適合高維度資料,能找到最佳超平面分隔特徵。
________________________________________
Q2:如果一個應用需要「不要錯過任何一個正例」(如癌症篩檢),應該優先考慮哪個指標?
A. Precision
B. Recall
C. Accuracy
D. F1-score
✅ 答案:B
解析:召回率(Recall)能最大化找出所有正例,避免漏掉關鍵案例。
________________________________________
Q3:在處理多類別問題時,One-vs-All 技術的概念是?
A. 把所有類別一起預測
B. 針對每一類,將其視為正類,其他為負類
C. 任意兩類配對,進行多次二元分類
D. 用神經網路直接解決
✅ 答案:B
解析:One-vs-All 就是針對每一類建立一個二元分類器。
________________________________________
Q4:以下哪一個方法不屬於集成學習?
A. 隨機森林
B. XGBoost
C. 貝葉斯分類器
D. LightGBM
✅ 答案:C
解析:Naive Bayes 屬於機率分類器,不是集成學習方法。
________________________________________
Q5:F1-score 高,代表模型怎樣?
A. 預測速度快
B. 訓練時間長
C. 平衡了 Precision 和 Recall
D. 適合回歸問題
✅ 答案:C
解析:F1-score 反映了模型在精準與召回間取得良好平衡。
________________________________________
✅ 小結重點(一口氣背下來)
分類模型 : 關鍵特色與適用場景
邏輯回歸 : 二分類經典,速度快,解釋性強
KNN : 小型數據OK,無需訓練,考鄰居
SVM : 高維資料利器,支援非線性核
決策樹 / 森林 : 易解釋,森林減少過擬合
XGBoost / LightGBM : 比賽神器,大數據強者
貝葉斯 : 文本專家,機率模型快準
ANN / MLP : 學複雜模式,圖像、語音皆可
One-vs-All : 多類問題拆解好用,支援多模型
________________________________________
✅ 最後提醒:模型選擇時,指標怎麼選?
• 精準率高(Precision)重要時 → 詐騙偵測、信用卡風控
• 召回率高(Recall)重要時 → 醫療篩檢、異常偵測
• F1-score 高才安心 → 當 precision 和 recall 都不能輸
• ROC-AUC 高才穩 → 適合類別極不平衡情境
________________________________________
💡 完整收尾金句:
「分類不只看準確率,根據應用場景選對指標,才是真高手!」