更新於 2025/02/10閱讀時間約 14 分鐘

iPAS AI應用規劃師考試攻略 : 資料處理與分析概論模擬試題與重點整理 CCChen

嗨 我是CCChen:

自114年起,iPAS將「巨量資料分析師」與「機器學習工程師」能力鑑定整合至「AI應用規劃師」

其中「巨量資料分析師」的考試科目"資料處理與分析概論" 也是包含在AI應用規劃師的考試範圍中, 下表 L112 資料處理與分析概念, 基本上大同小異, 占比預估為20~30%, 應該會出題5~10題.


因此, 我將「巨量資料分析師」公開的考試範例題目"資料處理與分析概論"35頁題目資料中, 利用AI工具 "NotebookLM" 進行重點整理, 方便學習.


分享整理結果給大家參考, 一起為"AI應用規劃師"備考努力學習.


然後, 再模擬題目類型與出題概念, 提供40題相關範例題目供刷題

提醒: 以下題目為AI模擬生成, 僅供個人參考, 非官方正式題目.


1.下列何者不是資料前處理的步驟? (A) 資料清理(Cleaning) (B) 資料操弄(Manipulation) (C) 資料建模(Modeling) (D) 資料變形(Reshaping) 答案:(C)

2.假設您收到一份包含姓名、性別、年齡等1000位用戶的Facebook資料,在R語言中,最適合用哪種資料結構來儲存? (A) 資料框架(Data frame) (B) 串列(List) (C) 向量(Vector) (D) 矩陣(Matrix) 答案:(A)

3.如何判斷資料中是否存在偏差甚大的離群值? (A) 將該欄位資料繪製成盒鬚圖(Box plot) (B) 將資料以直方圖(Histogram)表示 (C) 計算平均值與中位數的差異 (D) 以上皆是 答案:(D)

4.下列哪一項不屬於資料倉儲的特性? (A) 主題導向的(Subject-oriented) (B) 經過整合的(Integrated) (C) 不會流失的(Non-volatile) (D) 屬於 OLTP 系統 答案:(D)

5.下列何者為資料遺缺的狀況? (A) 完全隨機誤差(Missing Completely at Random,MCAR) (B) 隨機誤差(Missing at Random,MAR) (C) 非隨機誤差(Not Missing at Random,NMAR) (D) 以上皆是 答案:(D)

6.繪製下列何種圖表,資料集內至少需要包含兩個變量? (A) 直方圖(Histogram) (B) 圓餅圖(Pie chart) (C) 散佈圖(Scatter plot) (D) 盒鬚圖(Box plot) 答案:(C)

7.下列何者不屬於資料的相關性分析(Correlation Analysis)方法? (A) 卡方檢定 (B) 相關係數 (C) 共變異數 (D) 四分位數 答案:(D)2

8.從SQL Database的角度,若要輕鬆計算不同性別的平均體重,資料表欄位應如何設計? (A) 男性,女性,其他,男性體重,女性體重,其他體重 (B) 性別,男性體重,女性體重 (C) 性別,體重 (D) 以上皆非 答案:(C)

9.哪種圖表適合展示時間序列(Time Series)類型的資料? (A) 圓餅圖(Pie chart) (B) 散佈圖(Scatter plot) (C) 折線圖(Line chart) (D) 長條圖(Bar chart) 答案:(C)

10.下列何者是利用時間序列來觀察不同維度之間隨時間變化的資訊? (A) 勝率比(Odds ratio) (B) 平行座標圖(Parallel coordinates) (C) 目標投影追蹤(Targeted projection pursuit) (D) 運行圖(Run chart) 答案:(D)

11.若將一群客戶的消費額(最大值3800元,最小值1800元)經最小最大正規化(Min-Max Normalization)轉換至0到1的範圍,消費額2300元會被轉換為多少? (A) 0.2 (B) 0.25 (C) 0.4 (D) 0.5 答案:(B)

12.下列何者不是常用來儲存log file的資料格式? (A) Doc (B) Csv (C) Textfile (D) Parquet 答案:(A)

13.下列哪種方法可以用來進行特徵轉換? (A) Diffusion maps (B) Locally-linear embedding (C) Relational perspective map (D) 以上皆是 答案:(D)

14.下列何者不是降維的好處? (A) 減少運算時間與儲存空間 (B) 移除共線性資料能有效提高線性模型的效能 (C) 當資料維度降至 2~3 維時,能很容易的直接視覺化展示資料分佈 (D) 降維後的資料集訊息量增加,不會減少 答案:(D)

15.下列何項不是迴歸分析常用的維度縮減技術? (A) 係數縮減法(Shrinkage) (B) 逐步迴歸法(Stepwise Regression) (C) 子集挑選法(Subset Selection) (D) 事後修剪法(Post-pruning) 答案:(D)

16.欲擷取網頁內容時,若網頁內容改變但網址不變,較可能為何種請求方法? (A) POST (B) PUT (C) GET (D) READ 答案:(A)

17.下列何者並非現今巨量資料系統架構的設計趨勢? (A) 主從式分散架構(Master-Slave) (B) P2P 架構(P2P Architecture) (C) 分片機制(Sharding) (D) 高度集中化運算平台(Centalized Computing Platform) 答案:(D)

18.關於巨量資料平台Hadoop,下列敘述何者正確? (A) Name-Node 節點需要配置較多的記憶體,用來儲存文件資料 (B) 在 HDFS(Hadoop Distributed File System)上的文件,不支援隨機存取 (C) 支援一次寫入一次存取,確保資料完整存取 (D) 以上皆是 答案:(B)

19.下列何者不是HDFS(Hadoop Distributed File System)的特色? (A) 不需要 Master Node 來管理集群 (B) 可以將文件分散式儲存 (C) 適合儲存文字型資料 (D) 自動備份存入的檔案 答案:(A)

20.在撰寫MapReduce的程式時,下列何者操作不適合在Reducer中實現? (A) x - y (B) x * y (C) x + y (D) count 答案:(A)

21.若要比較兩公司員工薪資的離散程度,應採用下列哪種統計量? (A) 變異數 (B) 全距 (C) 平均數 (D) 變異係數 答案:(D)

22.盒鬚圖(Box plot)沒有顯示哪個統計量? (A) 第一四分位數 (B) 中位數 (C) 第三四分位數 (D) 標準差 答案:(D)

23.下列何種情形適合使用單因子變異數分析(One-way Analysis of Variance)? (A) 檢驗數據是否服從常態分配 (B) 比較某班級男生與女生數學成績的變異數 (C) 比較兩間輪胎工廠,輪胎平均使用年限是否不同 (D) 比較某工廠 4 部機器由不同人員操作下,其每小時平均產量是否不同 答案:(D)

24.二個獨立事件 A 與 B,機率分別是 60%與 40%,則 Pr{A∪B}=? (A) 50% (B) 20% (C) 76% (D) 100% 答案:(C)

25.下列敘述何者正確? (A) 若一組資料的最大值為 90,最小值為 0,其中位數為 60,則此資料為右偏 (B) 一組資料的所有數值與其算術平均數的差,其總和為 0 (C) 若二組資料有相同標準差,且平均數皆為正數,則平均數愈大者,變異係數愈大 (D) 兩組不同單位的資料可藉標準差來比較資料之離散程度 答案:(B)

26.若有四群學生的人數分別為 10、20、30、40 人,平均體重依序為 60、70、55、65 公斤,則全部學生的平均體重是? (A) 60 公斤 (B) 62.5 公斤 (C) 65 公斤 (D) 67.5 公斤 答案:(B)

27.有一汽車業務員隨機拜訪 3 位客戶,依過去經驗客戶購買車的機率為 10%,試問這三位客戶中,至少有一位會購買車的機率? (A) 23.1% (B) 25.1% (C) 27.1% (D) 29.1% 答案:(C)

28.統計資料分為離散型與連續型,請問下列何項與其他不同? (A) 體重 (B) 身高 (C) 成績 (D) 國家數目 答案:(D)

29.關於連續型機率分配,下列敘述何者正確? (A) 常態分配中,平均值為 0、變異數為 0 之分配,稱為標準常態分配 (B) 已知均勻分配為 U(a, b),則平均值為(a-b)/2 (C) 伽瑪分配是指數分配的特例 (D) 已知隨機變數為標準常態分配,則取其平方為卡方分配且自由度為 1 答案:(D)

30.下列何者不是卡方檢定(Chi-square Test)的功能? (A) 適合度檢定 (B) 獨立性檢定 (C) 變異數檢定 (D) 齊一性檢定 答案:(C)

31.下列何者為「非監督式學習」演算法? (A) 決策樹(Decision tree) (B) 集成方法(Ensemble Methods) (C) K 平均法(K-Means) (D) 支援向量機(Support Vector Machine) 答案:(C)

32.關於非監督式學習,下列敘述何者正確? (A) 意指不需要人看著就能學習 (B) 常見的集群分析屬於非監督式學習 (C) 常見的分類模型屬於非監督式學習 (D) 以上皆非 答案:(B)

33.關於 K 平均法(K-means)的分群,下列敘述何者不正確? (A) 一開始群的中心點可以是隨機選擇的 (B) 每次分群的結果都一模一樣 (C) 每次分群結果必須讓組內平方和最小 (D) 一開始必須告知該演算法欲分群的群數 答案:(B)

34.下列何種分群演算法,是基於「密度」概念所設計的? (A) OPTICS 演算法(Ordering Points To Identify the Clustering Structure) (B) K 平均法(K-means) (C) 聚合式階層分群法(Agglomerative Hierarchical Clustering) (D) 社群偵測(Community Detection) 答案:(A)

35.計算資料百分位數的 R 指令為何? (A) quantile (B) percent (C) median (D) sum 答案:(A)

36.在 R 語言中使用 arules 套件,下列哪一個指令可將 dataset 轉換成關聯規則分析用資料? (A) as(arules, "dataset") (B) as(dataset, "arules") (C) as(transactions, "dataset") (D) as(dataset, "transactions") 答案:(D)

37.欲呈現二維平面中檢視資料點之間的關係(例如:相似度或距離),一般會使用下列哪種方法? (A) 詞頻-逆文檔頻率(Term Frequency Inverse Document Frequency,TF-IDF) (B) 多維尺度法(Multidimensional Scaling,MDS) (C) 最鄰近搜索(Approximate Nearest Neighbor,ANN) (D) 社會網路分析(Social Network Analysis,SNA) 答案:(B)

38.有一個數列1...,若要找出此數列中的離群值,下列何者計算是不必要的? (A) 計算此數列的平均數 (B) 計算此數列的標準差 (C) 計算此數列的峰度係數 (D) 將各數值標準化 答案:(C)

39.有一筆資料[1,2,5,6,10,22,...],下列何種方式無法測量數列集中趨勢? (A) 平均數 (B) 標準差 (C) 眾數 (D) 中位數 答案:(B)

40.下列何者不屬於非監督式學習? (A) 局域離群因子(Local Outlier Factor) (B) 獨立成份分析(Independent Component Analysis) (C) 最近鄰法(Nearest Neighbor Methods) (D) 奇異值分解(Singular Value Decomposition) 答案:(C)


我是CCChen:

如果你覺得這篇文章對你有幫助,請幫我按個愛心,也歡迎 按讚 + 收藏 + 分享,我將持續分享更多 AI 學習攻略、考試技巧、AI 工具應用 等精彩內容!



分享至
成為作者繼續創作的動力吧!
© 2025 vocus All rights reserved.