vocus logo

方格子 vocus

iPAS 中級 AI 考點衝刺測驗:CRISP-DM、ETL、特徵縮放與 Pandas_03

更新 發佈閱讀 13 分鐘

實務情境與進階陷阱

第 1 題:在進行 AI 專案時,如果發現「預測客戶流失」的資料中,流失客戶僅佔 1%,沒流失的佔 99%。為了解決這個「資料不平衡 (Imbalanced Data)」問題而使用 SMOTE 技巧,這屬於 CRISP-DM 的哪一個階段?


A) 資料理解 (Data Understanding)

B) 資料準備 (Data Preparation)

C) 建立模型 (Modeling)

D) 評估 (Evaluation)


正確解答:B

教練解析: 處理資料不平衡(如過度抽樣或欠抽樣)是在餵給模型前必須做好的「食材處理」,屬於資料準備階段。


第 2 題:模型上線一段時間後,由於市場趨勢改變,導致模型的預測準確率逐漸下降(這被稱為「概念飄移 Concept Drift」)。為了應對這個問題而建立的「監控與重新訓練機制」,屬於 CRISP-DM 的哪一個階段?


A) 商業理解 (Business Understanding)

B) 資料準備 (Data Preparation)

C) 評估 (Evaluation)

D) 部署 (Deployment)


正確解答:D

教練解析: 部署階段不僅僅是把模型推上線,還包含了制定「監控與維護計畫」,以確保模型持續有效。


第 3 題:在醫療 AI 專案中,決定「把沒病的人預測成有病 (偽陽性)」跟「把有病的人預測成沒病 (偽陰性)」哪一個代價更高,並且依此決定專案的驗收標準。這應該在 CRISP-DM 的哪個階段就先釐清?


A) 商業理解 (Business Understanding)

B) 資料理解 (Data Understanding)

C) 建立模型 (Modeling)

D) 評估 (Evaluation)


正確解答:A

教練解析: 確立專案目標與衡量成功的標準(包含錯誤的容忍度與成本),是開工前的第一步。


第 4 題:團隊準備撰寫「最終專案報告 (Final Report)」,並與客戶或老闆進行專案回顧 (Project Review),總結這次 AI 專案的經驗。這屬於 CRISP-DM 的哪一個階段?


A) 評估 (Evaluation)

B) 建立模型 (Modeling)

C) 部署 (Deployment)

D) 商業理解 (Business Understanding)


正確解答:C

教練解析: 在 CRISP-DM 官方定義中,產出最終專案報告並進行專案回顧,是整個流程的最後一步(屬於部署階段的一環)。


第 5 題:資料科學家繪製了各特徵之間的「相關係數熱力圖 (Correlation Heatmap)」,以初步觀察哪些變數可能對預測目標有高度相關性。這是 CRISP-DM 的哪一個階段?


A) 商業理解 (Business Understanding)

B) 資料理解 (Data Understanding)

C) 資料準備 (Data Preparation)

D) 建立模型 (Modeling)


正確解答:B

教練解析: 使用視覺化圖表探索資料的關聯性與分佈(EDA),正是資料理解階段的核心工作。


第 6 題:在設計 ETL 流程時,為了節省頻寬與時間,系統每天只抓取「昨天新增或修改過」的資料,而不是每次都把幾 TB 的資料庫全部重新抓一遍。這稱為什麼策略?


A) 全量載入 (Full Load)

B) 增量載入 (Incremental Load)

C) 轉換載入 (Transform Load)

D) 反向 ETL (Reverse ETL)


正確解答:B

教練解析: 只抓取差異(增量)的部分,是實務上最常用的高效萃取策略。


第 7 題:將每天數以萬計的交易明細資料,彙總計算成「每個月、每個產品線的總營收」,然後再存入資料倉儲供高階主管看報表。這個彙總 (Aggregation) 的動作屬於 ETL 的哪一個步驟?


A) Extract (萃取)

B) Transform (轉換)

C) Load (載入)

D) Export (匯出)


正確解答:B

教練解析: 彙總、分組、計算平均或總和,都是改變資料結構的「轉換」動作。


第 8 題:現代大數據架構中常提到「資料湖 (Data Lake)」。在 ELT 架構下,原始資料 (Raw Data) 萃取出來後,在尚未經過任何清洗或轉換前,通常會優先「載入 (Load)」到哪裡存放?


A) 資料超市 (Data Mart)

B) 資料湖 (Data Lake)

C) 傳統關聯式資料庫 (RDBMS)

D) 快取記憶體 (Cache)


正確解答:B

教練解析: 資料湖的特色就是「有容乃大」,管它是圖片、影片還是亂七八糟的 JSON,全部先原封不動存進來再說。


第 9 題:工程師在從外部廠商提供的 API 抓取資料時,發現對方有限制「每分鐘只能呼叫 100 次 API」。撰寫程式來處理這種「速率限制 (Rate Limiting)」與「分頁 (Pagination)」,是 ETL 哪一個階段的核心挑戰?


A) Extract (萃取)

B) Transform (轉換)

C) Load (載入)

D) Deploy (部署)


正確解答:A


教練解析: 如何穩定、不中斷地從各種奇形怪狀的來源把資料「拿出來」,是萃取階段最大的技術挑戰。


第 10 題:為了節省儲存空間與符合機器學習的輸入格式,將文字型的性別欄位(Male/Female)轉換為整數(1/0),這屬於 ETL 的哪一個步驟?


A) Extract (萃取)

B) Transform (轉換)

C) Load (載入)

D) Cleanse (清洗)


正確解答:B


教練解析: 將文字標籤轉換為數值編碼(Label Encoding),是一種標準的資料轉換動作。


第 11 題:針對呈現嚴重「長尾分佈(極度向右偏態)」的資料(例如大部分使用者的按讚數為 10,少數網紅按讚數破百萬),除了標準化之外,實務上最常先進行哪種數學轉換來壓縮尾部,使其更接近常態分佈?


A) One-Hot Encoding (獨熱編碼)

B) 對數轉換 (Log Transformation)

C) 多項式特徵 (Polynomial Features)

D) Min-Max Scaler


正確解答:B

教練解析: 取 Log 可以極大地壓縮巨大的數值,是處理長尾偏態資料的超級神器。


第 12 題:下列哪一種熱門的機器學習演算法,天生就對「特徵數值的大小 (Scale)」不敏感,即使你完全不做特徵縮放,也不會影響其預測結果?


A) K-近鄰演算法 (KNN)

B) 支援向量機 (SVM)

C) XGBoost (梯度提升樹)

D) 邏輯斯迴歸 (Logistic Regression) 搭配 L1/L2 正規化


正確解答:C

教練解析: 只要是「樹狀模型 (Tree-based)」,它是依據數值大小來「切分」節點,因此數值本身的絕對大小或比例不會影響切分邏輯。


第 13 題:假設你使用 MinMaxScaler 對訓練集進行縮放(訓練集最大值為 100,被縮放為 1.0)。未來模型上線時,遇到一筆真實世界的新資料數值為 120,經過「同一個」Scaler 縮放後,其數值會如何?


A) 會被強制轉換為 1.0

B) 程式會直接報錯,拒絕處理

C) 會大於 1.0

D) 會變成 0.0


正確解答:C


教練解析: 公式是固定的,既然 120 大於當時訓練的最大值 100,算出來的結果自然就會突破 1.0 的天花板 (例如變成 1.2)。


第 14 題:針對含有大量「0」的稀疏矩陣(Sparse Matrix,例如 NLP 中的 TF-IDF 文字矩陣),為了不破壞其稀疏性(避免把原本是 0 的格子填入其他數字而塞爆記憶體),最好使用下列哪一種縮放器?


A) StandardScaler

B) MinMaxScaler

C) MaxAbsScaler

D) RobustScaler


正確解答:C


教練解析: 最大絕對值縮放器只除以特徵的最大絕對值,不作平移。0 除以任何數還是 0,完美保留了稀疏矩陣的結構。


第 15 題:K-Means 分群演算法非常依賴計算資料點之間的「歐幾里得距離」。如果不做特徵縮放(例如:X軸是體重 60KG,Y軸是年薪 1,000,000 元),會發生什麼事?


A) 演算法會無法執行並報錯

B) 模型收斂速度會變快

C) 絕對數值大的特徵(年薪)會完全主導分群結果

D) 演算法會自動幫你進行標準化


正確解答:C

教練解析: 計算距離時,100萬減去80萬的差距,會瞬間秒殺體重60跟50的差距,導致模型「只看薪水,不管體重」。


第 16 題:在 Pandas 中,若想根據條件篩選並「同時」指定要看哪幾個欄位(例如:找出年齡大於 18 歲的人,且只顯示「姓名」與「電話」欄位),最標準的做法是使用下列哪一個屬性?


A) df.iloc[]

B) df.loc[]

C) df.filter()

D) df.select()


正確解答:B

教練解析: loc (Location) 是基於「標籤 (Label)」選取的神器。語法如:df.loc[df['Age']>18, ['Name', 'Phone']]。


第 17 題:身為資料分析師,拿到一份新資料表 df 後,想快速統計「每一個欄位」分別有多少個缺失值 (NaN)。最常用的 Pandas 組合語法是什麼?


A) df.isna()

B) df.isnull().sum()

C) df.count_null()

D) df.info()


正確解答:B

教練解析: isnull() 先找出空值轉為 True(1),再用 sum() 把每一欄的 1 加起來,一秒看出哪裡破洞最多!


第 18 題:若想對 DataFrame 中的某一個欄位(例如將「價格」欄位中所有的 '$' 符號移除並轉為數字),套用一個「自訂的 Python 函數」,應該使用哪一個方法?


A) df.map()

B) df['Price'].apply(自訂函數)

C) df['Price'].transform()

D) df.replace()


正確解答:B

教練解析: apply 是 Pandas 裡強大的百搭工具,它能把你的自訂邏輯「套用」到該欄位的每一個儲存格中。


第 19 題:分析時發現「客戶身分證字號 (ID_Card)」欄位涉及隱私且對預測沒有幫助,你想把它從 DataFrame 中徹底刪除。正確的語法為何?


A) df.delete('ID_Card')

B) df.remove('ID_Card')

C) df.drop(columns=['ID_Card'])

D) df.pop_out('ID_Card')


正確解答:C

教練解析: drop (丟棄) 是移除資料的標準動作。也可以寫成 df.drop('ID_Card', axis=1)。


第 20 題:老闆要求你根據資料表中的「總消費金額 (Total_Sales)」由大到小(降冪)排列整個 DataFrame,看看誰是 VVIP。正確的語法為何?


A) df.sort()

B) df.order_by('Total_Sales', desc=True)

C) df.sort_values(by='Total_Sales', ascending=False)

D) df.group_by('Total_Sales').max()


正確解答:C

教練解析: sort_values 是排序的標準函式,ascending=False 代表不要遞增(也就是降冪排列)。

    含 AI 應用內容
留言
avatar-img
chen chen的沙龍
0會員
4內容數
你好,我是 chen chen!一個正在挑戰「iPAS 中級 AI 應用規劃師」的非本科輪班族。我知道下班後讀書有多累,所以在這裡記錄了我的備考筆記、刷題重點,以及專為零碎時間打造的無痛學習法。如果你也是工作忙碌、想跨領域拿下 AI 證照的戰友,歡迎加入我的夜鷹飛行隊,我們一起把證照拿到手!💪
chen chen的沙龍的其他內容
2026/04/17
內容精準涵蓋科目一與科目二的必考重點,包含:CRISP-DM 專案黃金流程、ETL 大數據搬運、特徵縮放 (Feature Scaling) 原理,以及必備的 Pandas 基礎語法。每道題目皆附有「教練級的白話文解析」,幫助非本科、工作忙碌的戰友們利用零碎時間無痛刷題、快速抓漏,穩穩拿下基本分!
2026/04/17
內容精準涵蓋科目一與科目二的必考重點,包含:CRISP-DM 專案黃金流程、ETL 大數據搬運、特徵縮放 (Feature Scaling) 原理,以及必備的 Pandas 基礎語法。每道題目皆附有「教練級的白話文解析」,幫助非本科、工作忙碌的戰友們利用零碎時間無痛刷題、快速抓漏,穩穩拿下基本分!
看更多