嗨 我是CCChen:
目前正在準備"iPAS AI應用規劃師 初級 能力檢定", 我嘗試使用AI學習AI,
利用AI自動生成練習模擬題目,供個人學習成果檢驗, 一起分享給大家.
#AI學習 #AI練習 #自主學習 #資料分析
這份測驗根據iPAS 巨量資料分析師 113年+112年+111年 共150題考古題,
重新彙整於iPAS AI應用規劃師,科目一 人工智慧基礎概論,評鑑主題: L112 資料處理與分析概念的考試範圍,
適合用來評估學習者在相關資料處理、大數據應用方面的理解程度。
**提醒: 以下資料為 使用AI (ChatGPT)自動生成, 僅供個人參考, 非官方正式文件內容.**
針對 iPAS 人工智慧應用規劃師科目一「人工智慧基礎概論」中,評鑑主題 L112「資料處理與分析概念」的考試範圍,重新整理 20 題選擇題模擬試題與解析。
模擬試題
1.下列哪一項方式較不適合遺缺值(Missing Values)的處理?
(A) 逐案刪除法(Casewise)
(B) 成對刪除法(Pairwise)
(C) 單一補值法(Single Imputation)
(D) 最大值補值法(Maximum Value Imputation)
◦
解析: D 最大值補值法容易引入偏差,並非處理遺缺值的理想方法。其他選項如逐案刪除、成對刪除和單一補值法都是常用的處理方式。
2.下列何種圖表適合用來表達連續型(Continuous)資料的分組?
(A) 長條圖(Bar Chart)
(B) 圓餅圖(Pie Chart)
(C) 直方圖(Histogram)
(D) 散佈圖(Scatter Plot)
◦
解析: C 直方圖是顯示連續數據分佈的理想選擇。
3.關於資料合併的敘述,下列何者正確?
(A) 資料合併應該針對具有相同意義的欄位進行合併
(B) 資料合併只能使用程式語言如 Python 或 R 中才能實現
(C) 資料合併是一種需要使用資料庫技術才能實現的方法
(D) 資料合併過程中如果有遺缺值(Missing Values),系統會自動補上平均值
◦
解析:A 資料合併時,需要確保合併的欄位代表相同的意義,以避免數據錯誤。
4.下列哪一項「不」屬於知名統計學家 Tukey 定義的五數摘要統計值(Tukey five-number summaries)?
(A) 最小值
(B) 下門栓值(Lower-hinge)
(C) 中位數
(D) 平均值
◦
解析:D 五數摘要包含最小值、下四分位數、中位數、上四分位數和最大值,不包括平均值。
5.巨量資料下特徵選取(Feature Selection)的工作十分重要,下列哪一項屬於封裝(Wrapper)方法?
(A) 多變量適應性雲形迴歸(Multivariate Adaptive Regression Splines, MARS)
(B) 遞迴特徵刪除(Recursive Feature Elimination, RFE)
(C) 決策樹(Decision tree)
(D) 最小絕對值縮減與屬性選擇運算子(Least Absolute Shrinkage and Selection Operator, LASSO)
◦
解析: B 遞迴特徵刪除是一種封裝式特徵選擇方法。
6.下列哪一個「不」是常見用來解讀資料的指標?2
(A) 平均數(mean)
(B) 眾數(mode)
(C) 偏態係數(Skewness coefficient)
(D) 標籤編碼(Label Encoding)
◦
解析:D 標籤編碼是一種資料預處理的技術,而非資料解讀的指標。
7.下列何者為常見的資料標準化及正規化方法?
(A) 計算 Z 分數(Z-score)
(B) 計算峰態(Kurtosis)
(C) 計算偏態係數(Skewness Coefficient)
(D) 計算變異數(Variance)
◦
解析: A Z 分數是常見的資料標準化方法。
8.假設有一個電商銷售資料表,其中一個欄位為消費者的「所在區域」。若要對此欄位進行處理、轉換為數值特徵,下列哪一個方法較適合?
(A) 因素分析(Factor Analysis)
(B) 獨熱編碼(One-hot Encoding)
(C) 主成份分析(Principal Component Analysis)
(D) 關聯規則(Association Rule)
◦
解析:B 獨熱編碼適合將類別型資料轉換為數值型特徵。
9.下列哪一項是設計 Hadoop 分散式檔案系統(HDFS)的主要特色?
(A) 儲存大量小檔案
(B) 具有高容錯率
(C) 低寫入延遲
(D) 支援即時查詢
◦
解析: HDFS 的主要特色是高容錯率。
10.下列何者「不」屬於低度結構化(Low Structure)資料?
(A) 數值資料
(B) 文字資料
(C) 影像資料
(D) 聲紋資料
◦
解析: 數值資料屬於結構化資料。
11.關於低度結構化(Low Structure)資料的處理方式敘述,下列何者錯誤?
(A) Open CV 是常用的資料處理工具之一
(B) NoSQL 是最常用來存放低度結構化資料的資料庫,NoSQL 代表「不只是 SQL (Not only SQL)」的意思,而非完全不用 SQL 語法
(C) 自然語言處理(NLP)是用來處理文字資料的方法
(D) 影像資料處理多半使用 .NET 語言
◦
解析: 影像資料處理常使用 Python 或 C++ 等語言,而非 .NET。
12.下列那一種重抽樣方法是隨機 k 等分樣本集後,每次保留一份作為測試集樣本,而以其餘 k-1 份樣本進行模型訓練?
(A) 拔靴抽樣(Bootstrapping)
(B) 交叉驗證(Fold Cross Validation)
(C) 保留法(Holdout)
(D) 袋外樣本(Out-of-bag Samples)
◦
解析: 交叉驗證是將資料集分割為 k 份,輪流使用其中一份作為測試集。
13.關於相關係數的敘述,下列何者錯誤?
(A) 相關係數(Correlation Coefficient)是用來衡量兩個變數間「線性」關聯性的高低程度
(B) 相關係數的值,介於 –1 與 +1 之間
(C) 相關係數很常用在機器學習或是統計分析上使用
(D) 相關係數,當值大於 0 時稱兩變數為無關
◦
解析: 相關係數大於 0 表示兩變數為正相關。
14.關於資料類型的敘述,下列哪一項正確?
(A) 身高、體重屬於間斷型資料(Discontinuous Data)
(B) 溫度屬於連續型資料(Continuous Data)
(C) 性別屬於數值型資料(Numerical Data)
(D) 營業金額屬於類別型資料(Category Data)
◦
解析: B 溫度是連續變化的數值,屬於連續型資料。
15.有一個數列1...,請問下列哪一項是此數列的中位數(Median)?
(A) 3 (B) 4 (C) 5 (D) 6
◦
解析:C 將數列排序後為1...,中位數為中間的數值 5。
16.下列關於假說檢定的敘述,何者錯誤?
(A) 假說檢定是指依據樣本證據,以判定統計假說真偽的統計推論過程
(B) 在統計上,A/B Testing 即為兩母體假說檢定
(C) 顯著水準(Significance Level, α)在假說檢定中,代表在進行統計檢定時,衡量是否拒絕虛無假設(Null Hypothesis)所願意接受的最大錯誤程度
(D) 對立假說(Alternative Hypothesis)在檢定中處於優勢地位,先推定為真
解析: 在假說檢定中,虛無假設是被先假設為真的,對立假設是當虛無假設被拒絕時所接受的假設。
17.如果有一組整數數據集的標準差為 0,則下列敘述何者正確?
(A) 該數據集的中位數必定大於其平均數
(B) 該數據集的所有數據值都相同
(C) 該數據集的變異數必為正數
(D) 該數據集的平均數必定大於其中位數
◦
解析:B 標準差為 0 代表所有數據值都相等,沒有變異。
18.關於非監督式學習(Unsupervised Learning)的敘述,下列選項何者錯誤?
(A) 非監督式學習是一類機器學習的方法,其目的是發現資料中的結構和關聯性
(B) 非監督式學習的一個常見應用是分群(Clustering),將相似的資料分為同一類別
(C) 在非監督式學習中,模型需要從標記好的資料中學習,以便為新的未標記資料做出預測
(D) 非監督式學習不需要事先知道資料的標記或答案 *
解析:C 非監督式學習處理未標記的資料。
19.有關平均數集群分析的說明,下列何者正確?
(A) K 平均數法屬於分割式分群的一種
(B) K 平均數法追求群內距離最大化
(C) K 平均數法追求群間距離最小化
(D) K 平均數法的 K 表示平均數值
◦
解析: A K 平均數法是一種將資料分割成 K 個群集的演算法。
20.下列何者「不」屬於探索式資料分析(Exploratory Data Analysis, EDA)會做的事?
(A) 檢視各欄位的資料型別(Dtypes)
(B) 類別欄位次數統計(Value_Counts)
(C) 繪製數值欄位直方圖(Hist)
(D) 預測結果的混淆矩陣(Confusion Matrix)
◦
解析: D 混淆矩陣通常用於評估監督式學習模型的性能,而非探索式資料分析。
我是CCChen:
如果你覺得這篇文章對你有幫助,請幫我按個愛心,也歡迎 按讚 + 收藏 + 分享,我將持續分享更多AI學習攻略、考試技巧、AI 工具應用 等精彩內容!