嗨 我是CCChen:
目前正在準備"iPAS AI應用規劃師 初級 能力檢定", 我嘗試使用AI學習AI,
利用AI自動生成練習模擬題目,供個人學習成果檢驗, 一起分享給大家.
#AI學習 #AI練習 #自主學習 #資料分析
這份測驗涵蓋了iPAS AI應用規劃師
科目一 人工智慧基礎概論
評鑑主題: L112 資料處理與分析概念 考試範圍,
適合用來評估學習者在相關資料處理、大數據應用方面的理解程度。
**提醒: 以下資料為 使用AI (ChatGPT)自動生成, 僅供個人參考, 非官方正式文件內容.**
以下是20題關於資料分析與處理的核心概念模擬選擇題,每題皆附上詳細解析:
1. SQL - 分組查詢
問題: 在 SQL 中,使用 GROUP BY 子句的主要目的是什麼?
(A) 用於排序數據
(B) 用於計算聚合函數的分組數據
(C) 用於過濾數據
(D) 用於連接多個表
答案: (B)
解析: GROUP BY 子句用於將數據依指定欄位分組,通常與聚合函數(如 COUNT、SUM、AVG 等)搭配使用,以便針對每一組進行計算。
2. SQL - JOIN 操作
問題: 下列哪種 JOIN 操作會返回左表所有記錄以及兩表匹配的記錄?
(A) INNER JOIN (B) LEFT JOIN (C) RIGHT JOIN (D) FULL JOIN
答案: (B)
解析: LEFT JOIN 會返回左表中的所有記錄,即使右表中沒有匹配的記錄,也會以 NULL 顯示。
3. Python (Pandas) - DataFrame 建立
問題: 下列哪一個方法可用於在 Pandas 中建立一個 DataFrame?
(A) pd.DataFrame() (B) pd.create_frame() (C) pd.frame() (D) DataFrame.create()
答案: (A)
解析: Pandas 提供 pd.DataFrame() 函數來建立 DataFrame,是最常用的方法。
4. Python (Pandas) - 過濾資料
問題: 若要在 Pandas 中過濾出 age 欄位大於 30 的資料,正確的寫法為何?
(A) df.filter(df['age'] > 30) (B) df[df['age'] > 30] (C) df.select(df['age'] > 30) (D) df.query('age > 30')
答案: (B)
解析: 使用布林索引 df[df['age'] > 30] 是過濾 DataFrame 資料的標準方法;(選項 D 雖然也可用,但本題以最直接的方法為主)。
5. Python (Pandas) - 讀取 CSV
問題: 如何在 Pandas 中讀取一個 CSV 文件?
(A) pd.read_csv('file.csv') (B) pd.load_csv('file.csv') (C) pd.import_csv('file.csv') (D) pd.open_csv('file.csv')
答案: (A)
解析: Pandas 的 read_csv() 函數是專門用來讀取 CSV 文件的標準函數。
6. Python (Matplotlib) - 繪圖函數
問題: 在 Matplotlib 中,用於繪製線圖的常用函數是?
(A) plt.bar() (B) plt.scatter() (C) plt.plot() (D) plt.pie()
答案: (C)
解析: plt.plot() 是用於繪製連續線條圖的函數,而其他函數分別用於柱狀圖、散點圖與圓餅圖。
7. 資料清洗 - 缺失值處理
問題: 在資料清洗過程中,下列哪種方法可以用來處理缺失值?
(A) 刪除包含缺失值的行
(B) 用平均值或中位數填充缺失值
(C) 用前一個有效值填充
(D) 以上皆是
答案: (D)
解析: 根據資料特性與業務需求,刪除缺失值、填充缺失值或使用前向填充等方法均為常見的缺失值處理方式。
8. 資料視覺化 - 圖表選擇
問題: 若要比較不同類別的銷售額,下列哪種圖表最合適?
(A) 長條圖
(B) 散點圖
(C) 折線圖
(D) 盒鬍圖
答案: (A)
解析: 長條圖適合展示各類別之間的比較,能清晰呈現各分類的銷售額差異。
9. 統計概念 - 平均值
問題: 平均值 (mean) 的定義是什麼?
(A) 中間值
(B) 眾數
(C) 所有數值的總和除以數量
(D) 數據分布中最常見的值
答案: (C)
解析: 平均值是將所有數值相加後除以數值個數,反映數據的中心趨勢。
10. 統計概念 - 標準差
問題: 標準差主要用於衡量數據的什麼特性?
(A) 中心位置
(B) 離散程度
(C) 最大值
(D) 最小值
答案: (B)
解析: 標準差描述數據相對於平均值的分散或波動情況,是衡量數據變異性的重要指標。
11. 統計分析 - 線性回歸
問題: 在線性回歸中,哪一個指標用來衡量模型解釋變異的能力?
(A) p 值
(B) R-squared (決定係數)
(C) 均值
(D) 標準差
答案: (B)
解析: R-squared 衡量模型對數據變異的解釋比例,數值越高代表模型擬合效果越好。
12. 統計檢定 - t 檢定
問題: 在比較兩組獨立樣本均值是否存在顯著差異時,最常用的檢定方法是?
(A) 卡方檢定
(B) t 檢定
(C) F 檢定
(D) Z 檢定
答案: (B)
解析: t 檢定適用於兩組樣本均值的比較,能檢測差異是否統計上顯著。
13. 資料聚合 - 數據透視表
問題: 在 Pandas 中,哪個函數常用於創建數據透視表?
(A) df.groupby() (B) pd.pivot_table() (C) df.pivot() (D) pd.groupby_table()
答案: (B)
解析: pd.pivot_table() 函數可根據指定索引和聚合函數創建數據透視表,便於數據匯總與比較。
14. SQL - 子查詢使用
問題: 下列關於 SQL 子查詢的描述,哪一項是正確的?
(A) 子查詢只能出現在 SELECT 子句中
(B) 子查詢只能出現在 WHERE 子句中
(C) 子查詢可以出現在 SELECT、FROM 或 WHERE 子句中
(D) 子查詢必須作為臨時表使用
答案: (C)
解析: 子查詢的彈性非常高,可以嵌入在 SELECT、FROM 和 WHERE 等子句中,以滿足各種查詢需求。
15. ETL 流程
問題: 在 ETL 流程中,"Transform" 階段的主要任務是什麼?
(A) 從資料來源提取數據
(B) 將數據轉換為所需格式及結構
(C) 將數據加載到目標資料庫
(D) 備份數據
答案: (B)
解析: "Transform" 階段包括數據清洗、轉換及格式化,目的是讓數據更適合後續分析或加載到目標系統中。
16. 資料視覺化工具 - Power BI 與 Tableau
問題: 哪一個工具主要使用 DAX (Data Analysis Expressions) 語言進行數據計算?
(A) Tableau (B) Power BI (C) 兩者皆是 (D) 兩者皆不是
答案: (B)
解析: Power BI 利用 DAX 進行數據計算與建模,而 Tableau 則主要透過內建計算功能處理數據。
17. 資料型態 - 數值型與類別型
問題: 下列哪項正確區分數值型數據與類別型數據?
(A) 數值型數據通常表示可度量的數字,而類別型數據代表分類或標籤
(B) 數值型數據只能表示整數,類別型數據只能表示文字
(C) 類別型數據適用於計算平均值,而數值型數據僅能統計眾數
(D) 兩者無本質區別
答案: (A)
解析: 數值型數據用於表示量化資訊(例如:收入、溫度),而類別型數據用來表示分類資訊(例如:性別、地區)。
18. Python (Pandas) - DataFrame 合併
問題: 在 Pandas 中,哪幾個方法可用於合併兩個 DataFrame?
(A) df.append() (B) pd.concat() (C) df.merge() (D) 以上皆可
答案: (D)
解析: 根據合併需求,可使用 merge() 進行關聯合併、concat() 用於連接多個 DataFrame,或 append() 進行行追加(雖然新版建議使用 concat),皆為常見合併方法。
19. 離群值檢測
問題: 下列哪一種方法常用於檢測數據中的離群值?
(A) 箱型圖 (Boxplot)
(B) 散點圖 (Scatter Plot)
(C) Z-score 分析
(D) 以上皆是
答案: (D)
解析: 箱型圖可視化離群值、散點圖能顯示數據分布異常,而 Z-score 分析則數值化判斷離群情形,均是常用方法。
20. 數據正規化
問題: 在數據預處理中,數據正規化(Normalization)的主要目的是什麼?
(A) 將數據轉換為均值為0、標準差為1的分布
(B) 將數據縮放到特定範圍(例如 0 到 1)
(C) 消除數據中的異常值
(D) 增加數據的維度
答案: (B)
解析: 數據正規化通常指將數據縮放到一個固定區間(如 0~1),以確保各特徵值在同一量級;而將數據轉換為均值0、標準差1則屬於標準化(Standardization)。
以下是20題關於大數據分析與處理的核心概念模擬選擇題,每題附上詳細解析:
1. Hadoop HDFS 架構
問題: 在 Hadoop 的 HDFS 中,下列哪一個是主要的組成部分?
(A) NameNode 與 DataNode
(B) Master Node 與 Worker Node
(C) Controller 與 Agent
(D) Producer 與 Consumer
答案: (A)
解析: HDFS 的架構主要由 NameNode(管理檔案系統的元數據)和 DataNode(負責存儲實際數據區塊)構成,是 HDFS 的核心組件。
2. Hadoop MapReduce 流程
問題: 在 Hadoop MapReduce 框架中,下列哪個階段負責將 Map 的輸出依照 Key 進行重分組(shuffle)?
(A) Map (B) Shuffle (C) Combine (D) Reduce
答案: (B)
解析: Shuffle 階段將 Map 輸出的資料根據 Key 重新分組,準備交由 Reduce 節點進行處理。這一過程是 MapReduce 中的關鍵環節,雖然有時候與 Reduce 階段結合描述,但重分組屬於 Shuffle。
3. Spark 的 RDD 與 DataFrame 差異
問題: 下列哪項描述正確區分了 Spark 的 RDD 與 DataFrame?
(A) RDD 支持結構化查詢,而 DataFrame 不支持
(B) DataFrame 提供了更高層次的抽象與查詢優化,而 RDD 提供較底層的操作控制
(C) 兩者皆不支持分布式運算
(D) DataFrame 是可變的,而 RDD 是不可變的
答案: (B)
解析: DataFrame 為 Spark 提供了結構化數據抽象,具有 Catalyst 優化器支持自動優化查詢,而 RDD 提供較底層的、靈活的操作控制,但缺乏上述優化特性。
4. Spark 中的分區 (Partitioning)
問題: 在 Spark 中,分區 (Partitioning) 的主要目的是什麼?
(A) 增加數據冗餘
(B) 將數據分佈到不同節點以實現並行計算
(C) 壓縮數據以節省存儲空間
(D) 加密數據提高安全性
答案: (B)
解析: 分區使得數據可以分散存放在集群中的不同節點上,從而實現並行處理,顯著提高計算效率。
5. YARN 的主要功能
問題: Apache Hadoop 中的 YARN (Yet Another Resource Negotiator) 主要負責什麼?
(A) 管理 HDFS 中的數據複製
(B) 資源管理與作業調度
(C) 數據的壓縮與解壓縮
(D) 實現數據加密
答案: (B)
解析: YARN 是 Hadoop 的資源管理與作業調度平台,負責分配計算資源並協調各類應用程序在集群中的運行。
6. Hive 查詢優化技術
問題: 在 Hive 中,下列哪項技術可用於優化查詢性能?
(A) MapReduce 重啟
(B) 動態分區裁剪
(C) 資料清洗
(D) 實時數據流處理
答案: (B)
解析: 動態分區裁剪 (Dynamic Partition Pruning) 可以根據查詢條件減少需要掃描的分區數量,從而提升查詢性能。
7. NoSQL 資料庫應用
問題: 下列哪一個 NoSQL 資料庫主要設計用於處理大規模分布式數據並提供高可用性?
(A) MySQL (B) Cassandra (C) PostgreSQL (D) Oracle
答案: (B)
解析: Cassandra 是一款分布式 NoSQL 資料庫,專為大規模數據存儲和高可用性設計,而其他選項均屬於傳統關係型資料庫。
8. Apache Kafka 的分區
問題: 在 Apache Kafka 中,為何要使用分區 (Partition)?
(A) 增強數據加密
(B) 實現數據的水平擴展與並行消費
(C) 壓縮數據以節省存儲空間
(D) 減少網絡延遲
答案: (B)
解析: Kafka 將數據流劃分為多個分區,使得數據能夠被多個消費者並行處理,提高了整體吞吐量與可擴展性。
9. 實時流處理框架
問題: 下列哪一個框架專門用於實時流處理?
(A) Apache Spark Batch (B) Apache Storm (C) Apache Hadoop MapReduce (D) Apache Hive
答案: (B)
解析: Apache Storm 是專為實時流處理而設計的分布式計算框架,而 Spark Batch 和 MapReduce 則主要用於批處理。
10. Apache NiFi 的用途
問題: Apache NiFi 主要用於什麼任務?
(A) 數據分析與機器學習建模
(B) 數據流設計、管理與自動化傳輸
(C) 儲存數據於 HDFS
(D) 實現實時流處理
答案: (B)
解析: Apache NiFi 提供了一個可視化界面,用於設計、管理和監控數據流,常用於 ETL 任務和數據管道建設。
11. Data Lake 與 Data Warehouse 的區別
問題: 下列哪一項正確描述了 Data Lake 與 Data Warehouse 的主要區別?
(A) Data Lake 主要存儲非結構化和半結構化數據,而 Data Warehouse 主要存儲結構化數據
(B) Data Lake 僅用於實時數據處理,而 Data Warehouse 僅用於批處理
(C) Data Lake 僅存儲數據快照,而 Data Warehouse 存儲歷史數據
(D) Data Lake 與 Data Warehouse 沒有本質區別
答案: (A)
解析: Data Lake 能夠存儲原始、非結構化或半結構化數據,而 Data Warehouse 通常存儲經過清洗和結構化後便於查詢和分析的數據。
12. Lambda 架構的核心概念
問題: Lambda 架構在大數據處理中主要解決什麼問題?
(A) 提高數據存儲效率
(B) 同時支持批處理與實時流處理
(C) 降低數據加載延遲
(D) 增強數據安全性
答案: (B)
解析: Lambda 架構將數據處理分為批處理層和實時處理層,使得系統既能處理歷史數據,也能實時響應新數據,滿足多種應用需求。
13. 分布式系統中的 CAP 理論
問題: 根據 CAP 理論,下列哪一項不是其組成部分?
(A) 一致性 (Consistency)
(B) 可用性 (Availability)
(C) 分區容錯性 (Partition Tolerance)
(D) 可擴展性 (Scalability)
答案: (D)
解析: CAP 理論指出,在分布式系統中只能同時滿足一致性、可用性和分區容錯性中的兩個,而可擴展性並非 CAP 理論的一部分。
14. Apache Flink 與 Spark Streaming
問題: 下列哪一項是 Apache Flink 與 Spark Streaming 的主要區別?
(A) Flink 僅支持批處理,而 Spark Streaming 僅支持流處理
(B) Spark Streaming 通常以微批處理方式運行,而 Flink 支持真正的低延遲流處理
(C) Flink 主要用於數據存儲,而 Spark Streaming 用於數據分析
(D) 兩者完全相同
答案: (B)
解析: Spark Streaming 通常以微批處理(micro-batching)方式處理數據,而 Apache Flink 提供真正的流處理(streaming),使其在低延遲要求下更具優勢。
15. 資源調度系統選擇
問題: 除了 YARN,哪一個資源調度系統也常用於大數據環境中?
(A) Apache Mesos (B) Kubernetes (C) Docker Swarm (D) 以上皆是
答案: (D)
解析: Apache Mesos、Kubernetes 和 Docker Swarm 均可用於大數據集群的資源管理與調度,不同方案各有優缺點與適用場景。
16. Spark 的 DAG (Directed Acyclic Graph)
問題: Spark 中的 DAG 主要用於什麼?
(A) 作為數據儲存格式
(B) 表示任務之間的依賴關係並優化任務執行順序
(C) 壓縮數據以節省儲存空間
(D) 分割數據以進行加密處理
答案: (B)
解析: Spark 利用 DAG 來表示作業中各個任務之間的依賴關係,並根據 DAG 進行任務調度與優化,提高整體執行效率。
17. 大數據聚類算法
問題: 在大數據分析中,哪一個聚類算法通常因其簡單且易於擴展而被廣泛應用?
(A) k-means (B) 層次聚類 (Hierarchical Clustering)
(C) DBSCAN (D) 均值漂移 (Mean Shift)
答案: (A)
解析: k-means 算法因其算法複雜度低和易於實現,在大規模數據聚類分析中被廣泛應用,儘管它對初始值較敏感,但擴展性較好。
18. NoSQL 資料庫特性
問題: 下列哪項是 NoSQL 資料庫的一個主要特點?
(A) 嚴格遵守 ACID 事務模型
(B) 高度可擴展且支持靈活的數據模型
(C) 僅能存儲結構化數據
(D) 只能使用 SQL 語言查詢
答案: (B)
解析: NoSQL 資料庫強調可擴展性和靈活性,能夠處理半結構化或非結構化數據,通常在一致性上採取較為寬鬆的策略,以換取高可用性與橫向擴展。
19. Spark 的 In-Memory 計算優勢
問題: Spark 利用 in-memory 計算的主要優點是什麼?
(A) 減少對內存的依賴
(B) 大幅提高數據處理速度
(C) 降低網絡傳輸負擔
(D) 提高數據持久性
答案: (B)
解析: Spark 將數據存放在記憶體中進行處理,顯著降低磁碟 I/O 開銷,因此能大幅提升處理速度,尤其在迭代運算中效果明顯。
20. 大數據安全性與隱私保護
問題: 在大數據環境中,哪項措施有助於提高數據安全性與隱私保護?
(A) 數據加密傳輸與存儲
(B) 將所有數據公開以便於訪問
(C) 忽略用戶訪問控制
(D) 僅使用單一弱密碼認證
答案: (A)
解析: 對數據進行加密傳輸與存儲可以有效防止未授權訪問與數據洩漏,是保障大數據安全性與隱私的重要措施。
我是CCChen:
如果你覺得這篇文章對你有幫助,請幫我按個愛心,也歡迎 按讚 + 收藏 + 分享,我將持續分享更多AI學習攻略、考試技巧、AI 工具應用 等精彩內容!