第 1 題
某電商行銷團隊要建立「高價值客戶預測模型」,資料包含「職業類別(教師、工程師、醫護、自雇⋯⋯共 24 類,無順序關係)」、「年收入」、「平均消費金額」與「是否成為高價值客戶」標籤。資料科學家要將職業類別欄位納入 XGBoost 模型。本題考點聚焦於:在不引入類別大小順序、且不使用標籤資訊進行編碼的前提下,何者是最直接且穩妥的處理方式?
(A) 採 Label Encoding 將 24 類依字母順序映射為 1~24,讓模型利用整數大小關係學習職業差異。
(B) 對職業類別做 Target Encoding,直接用全部資料中各職業的高價值客戶比例取代類別名稱,不做交叉驗證切折、平滑或防洩漏處理。
(C) 採 One-hot Encoding 展開為 24 個 0/1 特徵,避免模型把無序類別誤解為有大小順序。
(D) 將職業欄位保留為原始中文字串,讓 XGBoost 在訓練時自動解析每個職業名稱的語意。
深度導讀解析
正確答案:C
核心考點:無序類別特徵編碼與資料洩漏風險
理論拆解:職業類別屬於無序名目資料,類別之間沒有自然大小順序。若使用 Label Encoding,模型可能把 1~24 的數字關係當成可切分的順序訊號。One-hot Encoding 將每個類別轉為獨立的 0/1 欄位,能直接避免虛假順序問題。雖然 Target Encoding 在某些高基數類別與樹模型場景中可用,但必須搭配交叉驗證式編碼、平滑與嚴格的訓練/驗證切分,否則容易引入 target leakage。本題選項 B 明確寫成「用全部資料」且「不做防洩漏處理」,因此不可選。
選項坑洞掃描:
A 的錯誤在於引入虛假順序。
B 的錯誤不是 Target Encoding 永遠不能用,而是本選項使用全部資料且沒有防洩漏設計。
D 錯在把原始中文字串直接交給模型,模型不會自動理解職業語意,仍需適當編碼。
破題反射字:
無序類別 → 避免虛假順序
One-hot → 直接穩妥
Target Encoding → 可用但必須防洩漏
________________________________________
第 2 題
某信用卡公司建立詐欺交易偵測模型,歷史交易資料共 200 萬筆,其中確認為詐欺的僅 2000 筆。模型整體 Accuracy 達 99.9%,但詐欺類別 Recall 不到 10%。若團隊希望提高對詐欺交易的攔截能力,下列做法何者最合理?
(A) 調整類別權重或採用少數類過採樣,搭配分類閾值調整,並改以 Recall、F1 或 PR-AUC 評估模型。
(B) 維持 Accuracy 作為唯一指標,因為 99.9% 已代表模型幾乎完全正確。
(C) 將所有非詐欺交易刪到與詐欺交易一樣多,正負樣本變成 1:1 後即可保證模型泛化。
(D) 增加決策樹深度與訓練輪數,使模型更努力記住少數詐欺樣本。
深度導讀解析
正確答案:A
核心考點:類別不平衡與評估指標
理論拆解:
極度不平衡資料中,Accuracy 容易失真。若 99.9% 都是正常交易,模型即使幾乎都預測為正常,也可能得到很高 Accuracy,但對真正重要的詐欺交易辨識能力很差。合理做法是調整訓練策略與評估指標,例如 class weight、過採樣、欠採樣、SMOTE、閾值調整,並以 Recall、F1、PR-AUC 等更能反映少數類偵測能力的指標評估。
選項坑洞掃描:
B 忽略不平衡資料下 Accuracy 的誤導性。
C 欠採樣可能有用,但「即可保證泛化」過度武斷,且可能丟失大量正常交易樣本中的重要型態。
D 加深模型可能增加過擬合,不能根本解決類別比例失衡與評估指標錯置。
破題反射字:
不平衡資料 → 不只看 Accuracy
詐欺偵測 → Recall、F1、PR-AUC、閾值調整
________________________________________
第 3 題
某零售連鎖使用需求預測模型安排商品備貨。2020 年訓練的模型在 2023 年後預測誤差明顯上升。資料團隊檢視後發現,疫後消費型態、供應鏈週期與物流時效都與訓練當時不同。若要在 MLOps 平台中優先降低此類風險,下列機制何者最適合?
(A) 固定每季重新訓練模型,不論資料分布與模型表現是否變化,都用相同頻率更新。
(B) 改用更深的神經網路,讓模型用更大的參數量吸收所有環境變化。
(C) 在推論服務端調降學習率與加大 Dropout,使模型上線後自動適應新資料。
(D) 建置資料漂移、概念漂移與模型效能監控,當指標超過閾值時觸發告警、檢查與重新訓練流程。
深度導讀解析
正確答案:D
核心考點:Data Drift、Concept Drift 與 MLOps 監控
理論拆解:
模型上線後,輸入資料分布可能改變,稱為 Data Drift;輸入特徵與目標變數之間的關係也可能改變,稱為 Concept Drift。需求預測受到消費型態、供應鏈與物流週期影響,屬於典型漂移風險。MLOps 應建立監控、告警、資料檢查與重訓流程,而不是只靠固定時間表或放大模型。
選項坑洞掃描:
A 的問題不在於「固定週期重訓」本身一定錯,而是在於它完全沒有搭配資料分布、模型效能或業務指標的觸發條件。固定週期重訓可以作為輔助機制,但不能取代漂移監控與告警。
B 模型更大不代表能解決資料生成機制改變。
C 學習率與 Dropout 是訓練階段概念,不能在一般推論階段用來自動修復漂移。
破題反射字:
輸入分布變 → Data Drift
特徵與標籤關係變 → Concept Drift
固定重訓 → 可輔助,但不能取代監控
________________________________________
第 4 題
某 ML 團隊需同時部署客服 LLM、推薦模型與影像風控模型。三個服務依賴不同 Python 版本、系統套件與模型權重,且更新頻率不同。技術主管要求部署環境可重現、版本可控、可灰度更新,並能依流量快速擴充實例。下列方案何者最合適?
(A) 三個模型安裝在同一台伺服器的同一個 Conda 環境中,統一更新套件以降低環境管理成本。
(B) 分別以 Docker 打包模型、程式與依賴環境,再由 Kubernetes 進行服務編排、擴縮容、滾動更新與回滾。
(C) 將所有模型權重放在共享資料夾,服務啟動時直接讀取最新版檔案,避免建立額外部署流程。
(D) 由工程師手動 SSH 到每台主機更新模型檔案,並用文字紀錄每次上線版本,確保流程彈性。
深度導讀解析
正確答案:B
核心考點:容器化部署與服務編排
理論拆解:
多模型服務若依賴不同 Python 版本、系統函式庫、模型權重與更新節奏,應使用容器化封裝各自環境,避免環境衝突。Kubernetes 可處理多實例編排、滾動更新、灰度發布、擴縮容與回滾,是多模型服務上線常見架構。
選項坑洞掃描:
A 同一環境容易產生套件衝突,且不利於獨立更新。
C 直接讀最新版檔案缺乏版本控管與回滾機制。
D 手動 SSH 更新不可重現,容易出現人為錯誤,也不利於稽核。
破題反射字:
環境一致 → Docker
多服務擴縮容 → Kubernetes
上線可回滾 → 版本化部署
________________________________________
第 5 題
某汽車零組件工廠要在 SMT 產線上部署 AI 自動光學檢測,單顆元件檢測時間需壓在 50 毫秒內。廠內網路僅 100Mbps 且偶爾不穩。資料科學家訓練出的原始 ResNet-50 模型在現有 CPU 設備上推論約 200 毫秒。下列部署策略何者最能滿足即時檢測需求?
(A) 在產線端部署量化、剪枝或蒸餾後的小模型,由邊緣裝置本機完成推論,僅將結果與摘要回傳雲端。
(B) 在產線端配置高效能 GPU 工作站,直接部署原始 ResNet-50 做本機推論,以取得最高單機算力。
(C) 每日收集產線影像後批次上傳雲端分析,隔日再回饋缺陷原因與修正建議。
(D) 保留原始 ResNet-50,不做壓縮直接部署在產線端 CPU 上,以避免準確率下降。
深度導讀解析
正確答案:A
核心考點:邊緣推論、模型壓縮與產線延遲限制
理論拆解:
產線檢測屬於低延遲、高穩定性場景。若單顆元件需在 50 毫秒內完成判斷,部署策略不能只看模型準確率,也要看推論延遲、設備成本、維護難度與穩定性。量化、剪枝或知識蒸餾後的小模型,可在邊緣裝置本機完成推論,降低網路依賴與推論成本,較符合產線即時檢測需求。
選項坑洞掃描:
B 比原本的雲端 GPU 干擾項更接近正解,因為它同樣是本機推論,也可能改善延遲。但它保留原始大模型,依賴高成本硬體,未處理模型本身過重問題;若要穩定壓到 50 毫秒,模型壓縮與部署最佳化通常更關鍵。
C 批次分析可用於品質改善,但不能即時攔截不良品。
D 原模型已知在現有 CPU 上推論 200 毫秒,直接部署無法達成需求。
破題反射字:
低延遲 → 邊緣推論
模型太重 → 量化、剪枝、蒸餾
本機 GPU → 可能有用,但不是最精準的低延遲解法
________________________________________
第 6 題
某商業銀行要建立信用評分模型,資料為 30 萬筆、60 個表格型結構化欄位,多數為類別、比率與歷史交易統計特徵。高層要求模型不只要有良好預測能力,也要能說明影響每筆決策的主要因素。下列選型判斷何者最合適?
(A) 採用 TabNet,因為它結合注意力機制與可解釋性,是目前表格型資料最新且必然優於梯度提升樹的深度學習方案。
(B) 採用 KNN,因為不需訓練即可上線,且每次預測都能直接找相似客戶。
(C) 採用 XGBoost 或 LightGBM 等梯度提升樹,搭配特徵重要性或 SHAP 分析,以兼顧表格資料表現與可解釋性。
(D) 採用深層 MLP 並增加層數,只要參數量夠大,就能保證比樹模型更穩定。
深度導讀解析
正確答案:C
核心考點:表格型資料模型選型與可解釋性
理論拆解:
信用評分屬於典型表格型結構化資料任務。XGBoost、LightGBM 等梯度提升樹常用於此類資料,能處理非線性、特徵交互與混合型欄位,並可搭配特徵重要性、SHAP 等方法解釋整體與個別預測結果。若業務場景重視模型說明,單純追求較新的深度學習架構未必是最佳選擇。
選項坑洞掃描:
A 的陷阱在於「新技術」不等於「必然最優」。TabNet 等表格深度學習方法在部分場景可用,也具備一定解釋設計,但不能直接推論其必然優於 GBDT,更不能忽略驗證成本、穩定性與業務可說明性。
B KNN 推論需比對大量訓練資料,延遲與儲存成本高,可解釋性也不等於合規說明。
D 深層 MLP 不保證優於樹模型,且可能增加調參、穩定性與解釋成本。
破題反射字:
表格型資料 → GBDT
信用評分 → 可解釋性
新模型 → 不等於必然較好
________________________________________
第 7 題
某零售電商的推薦模型每兩週重新訓練並上線一次。現行流程由資料科學家手動打包、手動上傳、手動切換版本,近半年曾兩度因部署檔案錯置造成線上服務異常。技術主管希望建立更穩定、可追蹤、可回滾的更新機制。下列做法何者最能解決此問題?
(A) 將部署流程寫成更詳細的 SOP,要求值班人員每次上線前逐項勾選,避免遺漏步驟。
(B) 將最新版模型權重固定命名為 latest.pkl,所有服務都讀取同一檔名,以簡化切換流程。
(C) 取消模型版本控制,避免工程師混淆不同版本,直接覆蓋線上模型即可。
(D) 建置 CI/CD pipeline,串連資料驗證、模型訓練、測試、容器打包、灰度上線與回滾機制。
深度導讀解析
正確答案:D
核心考點:MLOps CI/CD 與版本治理
理論拆解:
此題問題核心不是「人不夠細心」,而是流程過度依賴人工。CI/CD pipeline 可將資料驗證、模型訓練、測試、打包、部署、監控與回滾制度化,降低人為操作差異。模型版本、程式版本、資料版本與容器映像應能相互追蹤,才能在異常時快速定位與回復。
選項坑洞掃描:
A SOP 有幫助,但仍無法消除手動操作風險。
B latest.pkl 會讓版本來源不清楚,回滾與稽核困難。
C 取消版本控制會使異常追蹤與回復更困難。
破題反射字:
反覆上線 → CI/CD
部署錯置 → 自動化與版本控管
線上異常 → 可回滾
________________________________________
第 8 題
某資料科學家建立房價預測模型,先對全部資料計算 Min-Max 統計量並完成標準化,之後才切分訓練集與測試集。離線測試 RMSE 表現良好,但上線後對新資料的誤差明顯放大。資深工程師指出流程可能造成資料洩漏。下列前處理流程何者正確?
(A) 在全部資料上計算 Min-Max 統計量再切分資料,確保訓練集與測試集尺度完全一致。
(B) 先切分訓練集與測試集,只在訓練集計算 Min-Max 統計量,再將同一組統計量套用到測試集與上線資料。
(C) 訓練集與測試集各自獨立計算 Min-Max 統計量,避免任何統計量共用。
(D) 將測試集資料刪除,只保留訓練集做模型評估,避免測試集資訊洩漏。
深度導讀解析
正確答案:B
核心考點:資料前處理、訓練流程一致性與 Data Leakage
理論拆解:
所有會從資料中學到統計量的前處理步驟,都應只在訓練集上 fit,再套用到驗證集、測試集與上線資料。若先用全部資料計算 Min-Max 的最大值與最小值,測試集資訊已滲入前處理流程,這才是典型 Data Leakage,會讓離線測試表現偏樂觀。
選項坑洞掃描:
A 是典型資料洩漏,因為測試集資訊被用來建立前處理統計量。
C 的錯誤不應稱為資料洩漏,而是評估流程不符合真實部署情境。測試集若各自計算統計量,評估結果無法反映上線後真實誤差;正確做法是讓測試集與上線資料使用同一組由訓練集計算出的統計量。
D 刪除測試集會失去獨立評估能力,不是解法。
破題反射字:
先切分 → 再 fit 前處理器
訓練集 fit → 測試集 transform
全資料 fit → Data Leakage
測試集自己 fit → 評估流程失真
________________________________________
第 9 題
某醫學中心建立病人重症風險預測模型,原始欄位達 500 個,包含生化檢驗、病史代碼、用藥紀錄與生命徵象統計。樣本數約 8000 筆。資料科學家擔心特徵過多造成過擬合,也希望保留一定可解釋性。下列特徵處理策略何者較合理?
(A) 將所有 500 個特徵直接投入深度神經網路,不需做特徵篩選,因為深度模型會自動忽略無用特徵。
(B) 隨機刪除 80% 特徵以降低維度,再用 validation score 決定哪一批隨機特徵較好。
(C) 結合領域知識、缺失率與穩定性檢查,並可使用 L1 正則化或樹模型重要性輔助篩選特徵。
(D) 以 Random Forest 特徵重要性對全部 500 個特徵排序,取前 50 名直接投入模型,因為樹模型已能自動處理非線性與交互作用。
深度導讀解析
正確答案:C
核心考點:高維特徵處理、醫療資料品質與過擬合控制
理論拆解:
醫療資料欄位多、樣本相對有限,容易出現雜訊特徵、缺失特徵、不穩定特徵與臨床上不合理的關聯。合理流程不是盲目全放,也不是只靠單一模型的重要性排名,而是先做資料品質檢查,再結合領域知識與模型式特徵選擇方法。L1 正則化可產生稀疏係數,樹模型特徵重要性可輔助觀察非線性關係,但仍需搭配交叉驗證、穩定性檢查與臨床合理性判斷。
選項坑洞掃描:
A 過度相信深度模型,忽略樣本數、雜訊與可解釋性限制。
B 隨機刪除缺乏方法論,可能刪除關鍵醫療變數。
D 比單純 Pearson 更像合理方法,但仍過度依賴單一模型的重要性排名。Random Forest 重要性可能受特徵尺度、類別基數、相關特徵與資料切分影響;若未檢查缺失率、時間穩定性與臨床合理性,直接取前 50 名仍有風險。
破題反射字:
特徵很多 → 品質檢查、正則化、特徵選擇
醫療模型 → 領域知識與穩定性
特徵重要性 → 可輔助,不可單獨封神
________________________________________
第 10 題
某網路媒體公司準備以新版推薦模型取代舊版模型。舊模型目前服務所有用戶,CTR 約 4.5%。新版模型離線測試表現較佳,但團隊擔心真實流量下可能出現 CTR 下降、延遲升高或特定族群體驗變差。若目標是降低上線風險,下列部署策略何者最合理?
(A) 採 Canary Release,先將少量流量導入新版模型並監控 CTR、延遲、錯誤率與回滾條件,穩定後再逐步擴大。
(B) 直接在午夜低流量時段全量替換新版模型,若隔天表現下降再人工回復舊版。
(C) 只依離線測試結果決定上線,因為離線指標已能完整代表真實用戶行為。
(D) 先停止舊模型服務,等待新版模型收集足夠資料後再重新開放推薦功能。
深度導讀解析
正確答案:A
核心考點:漸進式部署與線上風險控管
理論拆解:
推薦模型在線上可能受到真實流量、使用者行為、系統延遲與族群差異影響。Canary Release 先導入少量流量,觀察核心業務指標與系統指標,若異常可快速回滾;若穩定,再逐步擴大比例。這比一次全量替換更能控制風險。
選項坑洞掃描:
B 全量替換風險高,且隔天才發現可能已影響大量用戶。
C 離線測試無法完全代表線上使用者行為。
D 停止舊模型會造成服務中斷,不符合低風險上線原則。
破題反射字:
低風險上線 → Canary
真實流量驗證 → 線上監控
異常處理 → 回滾條件


















