建議先看過教學課程影片,效果加倍
問題 1 (中級)
------------------------------題目: 一家電子商務公司發現許多客戶地址缺少門牌號碼,導致包裹投遞失敗。針對此數據問題,主要違反了數據品質的哪一項評估指標?
選項:
A) 完整性
B) 準確性
C) 一致性
D) 及時性
答案: A) 完整性
解析: 完整性指的是數據是否齊全,沒有遺漏關鍵資訊。地址中缺少門牌號碼,導致資訊不完整,直接影響後續遞送環節。
問題 2 (中級)
------------------------------
題目: 在處理一份客戶消費記錄時,發現「消費金額」欄位有多筆資料為負值,經查證為輸入錯誤。作為iPAS AI應用規劃師,您會優先採取下列哪一種資料清理策略?
選項:
A) 直接刪除所有包含負值消費金額的記錄
B) 將所有負值消費金額替換為該欄位的平均值
C) 將所有負值消費金額替換為0
D) 與資料提供者溝通並嘗試修正錯誤或確認合理的處理方式
答案: D) 與資料提供者溝通並嘗試修正錯誤或確認合理的處理方式
解析: 消費金額為負值通常是輸入錯誤或數據採集異常。在直接進行刪除或替換之前,最負責任且有效的做法是與資料來源方溝通,了解產生負值的原因並嘗試取得正確數據或確認修正邏輯,以最大程度保留數據的真實性。
問題 3 (中級)
------------------------------
題目: 在訓練一個基於梯度下降的機器學習模型時,若某個數值特徵的分佈呈現長尾(skewed)且包含離群值,下列哪種數值特徵轉換方法在處理離群值影響和加速模型收斂方面通常表現更佳?
選項:
A) 獨熱編碼
B) 標籤編碼
C) 標準化 (Standardization)
D) 正規化 (Normalization)
答案: C) 標準化 (Standardization)
解析: 標準化(Z-score normalization)將數據轉換為平均值為0、標準差為1的分佈。它對離群值不如正規化敏感,因為其轉換不依賴於最大最小值,更能在保持數據分佈特徵的同時,有效緩解離群值對模型訓練的影響,並有助於基於梯度下降的模型更快收斂。
問題 4 (中級)
------------------------------
題目: 您正在處理一個房價預測模型,其中一個特徵是「房屋類型」,其值包括「公寓」、「獨棟別墅」、「聯排別墅」。若您預期這些類別之間不存在自然的順序關係,下列哪種編碼方式最適合處理此特徵,以避免模型誤讀類別間的假性順序?
選項:
A) 標籤編碼
B) 獨熱編碼
C) 平均值編碼
D) 頻率編碼
答案: B) 獨熱編碼
解析: 獨熱編碼 (One-Hot Encoding) 將每個類別轉換為一個新的二元特徵(0或1),這樣可以避免模型錯誤地將沒有序數關係的類別視為具有數值大小關係。標籤編碼則會賦予類別整數值,這在無序類別時會引入錯誤的順序性。
問題 5 (中級)
------------------------------
題目: 在主成分分析 (PCA) 中,第一個主成分 (Principal Component 1) 捕捉了原始數據中最大量的什麼資訊?
選項:
A) 數據的平均值
B) 數據的相關性
C) 數據的變異量
D) 數據的偏度
答案: C) 數據的變異量
解析: PCA 的核心目標是找到新的正交方向(主成分),使數據在這些方向上的投影具有最大的變異量。第一個主成分被定義為捕捉原始數據中最大變異量的方向。
問題 6 (中級)
------------------------------
題目: 數據科學家小陳在處理一個高維基因表達數據集時,希望將數據可視化,以便觀察不同基因群體之間的聚類模式。然而,他也關心數據的全局結構是否能被有效保留。在下列兩種降維技術中,哪一種在可視化局部結構方面通常優於另一種,但全局結構保留能力可能較弱?
選項:
A) PCA
B) t-SNE
C) UMAP
D) Kernel PCA
答案: B) t-SNE
解析: t-SNE (t-distributed Stochastic Neighbor Embedding) 擅長在高維數據中捕捉並可視化局部結構,它會將高維空間中相似的點在低維空間中也保持接近。然而,它在保留全局結構方面可能不如 PCA 或 UMAP,且計算成本較高。
問題 7 (中級)
------------------------------
題目: 針對一個擁有數百個原始特徵的複雜數據集,iPAS AI應用規劃師小美正在尋找一種方法來快速生成大量潛在的新特徵,並減少手動處理的時間。下列哪一項是自動特徵工程工具的主要優勢?
選項:
A) 精確控制每個特徵轉換的細節
B) 始終產生解釋性最強的模型
C) 大幅減少人工領域知識的依賴和手動特徵工程的時間
D) 保證生成的特徵具有最佳的線性關係
答案: C) 大幅減少人工領域知識的依賴和手動特徵工程的時間
解析: 自動特徵工程工具的核心價值在於自動化特徵生成、轉換和選擇的過程,從而顯著減少了對專業領域知識的需求以及數據科學家手動處理特徵的時間成本。
問題 8 (中級)
------------------------------
題目: 某公司投入巨資開發AI聊天機器人以提升客戶服務,但上線後客戶滿意度不升反降,機器人回應常常文不對題。經調查發現,訓練數據中存在大量錯別字、語法錯誤和過時的資訊。這最直接印證了哪個核心理念?
選項:
A) 奧卡姆剃刀原則 (Occam's Razor)
B) 沒有免費的午餐定理 (No Free Lunch Theorem)
C) 垃圾進,垃圾出 (Garbage In, Garbage Out)
D) 邊際效益遞減法則 (Law of Diminishing Returns)
答案: C) 垃圾進,垃圾出 (Garbage In, Garbage Out)
解析: 「垃圾進,垃圾出」的核心理念強調,模型的效能受輸入數據品質的嚴重影響。劣質的訓練數據(錯別字、語法錯誤、過時資訊)必然導致模型產出低品質的結果(文不對題),這直接解釋了聊天機器人表現不佳的原因。
問題 9 (中級)
------------------------------
題目: 在機器學習專案中,若模型在訓練集上表現極佳,但在未見過的測試集上表現卻很差,這可能是模型發生了過度擬合 (Overfitting)。下列哪種特徵工程策略最有可能緩解過度擬合問題?
選項:
A) 增加更多複雜的交互特徵
B) 採用獨熱編碼處理所有數值特徵
C) 進行特徵選擇,移除不相關或冗餘特徵
D) 將所有數值特徵進行正規化
答案: C) 進行特徵選擇,移除不相關或冗餘特徵
解析: 過度擬合通常是因為模型學習了訓練數據中的雜訊,變得過於複雜。特徵選擇 (Feature Selection) 有助於減少模型的複雜度,只保留對目標變量最重要的特徵,從而降低模型捕捉雜訊的可能性,有效緩解過度擬合。增加複雜特徵通常會加劇過度擬合,獨熱編碼和正規化本身不直接解決過擬合問題。
問題 10 (中級)
------------------------------
題目: 一位iPAS AI應用規劃師需要將一個具有50個特徵的客戶行為數據集,降維到2維或3維並進行可視化,以便在團隊會議中展示客戶群體的潛在分群。團隊成員對數學背景不深,更需要直觀的群集圖。考量到展示效果和對局部群集結構的關注,下列哪兩種數據降維技術組合在這種情境下會是優先推薦的選擇?
選項:
A) PCA與線性判別分析 (LDA)
B) t-SNE與UMAP
C) 獨立成分分析 (ICA) 與因子分析 (Factor Analysis)
D) 樸素貝葉斯 (Naive Bayes) 與支持向量機 (SVM)
答案: B) t-SNE與UMAP
解析: t-SNE和UMAP都是非線性降維技術,特別擅長將高維數據降至2D或3D以進行可視化,並能很好地保留數據的局部聚類結構,非常適合展示群體分佈。PCA雖然常用於降維,但在可視化非線性結構時效果不如 t-SNE 或 UMAP。LDA是監督式降維,需要類別標籤,不純粹用於無監督的可視化。ICA、因子分析是其他降維方法。樸素貝葉斯和SVM是分類模型,非降維技術。












