嗨 我是CCChen
已通過3/22 iPAS AI應用規劃師 初級 第一場測試
預計參加5/17 iPAS AI應用規劃師 中級 第一場測試
關於中級的準備步驟:
一 先將相關考試資料確認清楚
二 再將各科目評鑑重要知識點列出
三 針對主題-項目-內容核心重點-關鍵知識點, 依序擴展學習
四 針對主題-項目-關鍵字/關鍵核心/關鍵重點, 題目練習加強學習
中級考試科目選擇分2大類:
科目一+ (科目二 或 科目三 擇一)
本篇文章為: 科目二 L22 大數據處理分析與應用 相關整理


分享我的數位商品:
iPAS AI應用規劃師(中級) 科目1+2 重點與題庫
科目一: 重點整理+40個專有名詞解說+200題模擬題目
科目二: 重點整理+50個專有名詞解說+250題模擬題目
筆記購買連結: https://vocus.cc/salon/678ac6e5fd89780001eb761c/products/AIM12
🌐 核心概念簡化說明
資料分析與大數據是現代企業做決策的重要基礎。你可以想像資料就像「原料」,分析就是「廚師」,透過不同的方法把資料這些「食材」變成可以吃的「菜」,也就是有用的資訊或洞察。
🧱 主要流程包含:
- 資料收集(Data Collection):像是在田裡採集食材,從各種來源拿到資料(網站、設備、資料庫等)。
- 資料清理(Data Cleaning):這步驟就像洗菜、挑掉壞掉的東西。你會處理遺失值(缺資料)、重複資料、格式錯誤等。
- 資料轉換與整理(Data Transformation):把原始資料調整成你可以分析的形式,例如數值轉換、分類、標準化。
- 探索性資料分析(EDA):這是你開始「試吃」資料,看資料分布、趨勢、關聯等。
- 模型建立與分析(Modeling and Analysis):開始用統計或機器學習幫你從資料中找到規律與預測能力。
- 視覺化與報告(Visualization & Reporting):最後把結果變成圖表、報告,讓老闆或決策者能看懂你分析出什麼。
🔍 舉例說明:
範例 1:電商平台分析
電商網站蒐集大量的客戶購物資料,透過分析可以發現哪些商品常被一起買(購物籃分析),或是誰會在特定時間購物。這可以用來推薦商品或推播優惠。
範例 2:製造業品質監控
工廠內部感測器不斷回傳溫度、濕度、壓力等資訊。透過即時大數據分析,可以預測設備故障風險、找出不良品的關鍵因素,減少停機與報廢成本。
✅ 群組一:L221 機率統計基礎
🔍 目的:奠定資料分析與預測模型的數學基礎
重點編號核心重點說明
1️⃣統計描述與敏感性指標:掌握平均數、中位數、標準差等基本統計量,用於解讀資料分布趨勢與離散程度。
2️⃣抽樣與資料捕捉技術:理解抽樣方法(隨機抽樣、分層抽樣等)與資料補捉技術(如問卷、IoT感測)以收集可靠數據。
3️⃣機率分布模型:熟悉常態分布、二項分布、泊松分布等,為模型建構提供理論依據。
4️⃣統計推論:包括估計(如信賴區間)與假設檢定(如 t 檢定、卡方檢定),推斷樣本結果對母體的意義。
5️⃣資料變異與相關性分析:探討變異數、相關係數等指標,用以衡量資料變異性與變數間關係強度。
✅ 群組二:L222 大數據處理技術
🔍 目的:建立資料收集、處理、儲存與整合的操作能力
重點編號核心重點說明
1️⃣數據收集與來源整合:學習 API 抓取、感測器資料、網頁爬蟲等收集手段,統整結構與非結構化資料來源。
2️⃣資料清理與預處理技術:進行缺值處理、異常值修正、欄位格式標準化與轉換等 ETL 操作。
3️⃣資料儲存架構:理解關聯式資料庫(SQL)與非關聯式資料庫(NoSQL)的特性與適用場景。
4️⃣分散式儲存與運算工具:熟悉 Hadoop HDFS、Spark、MapReduce 等處理大數據的工具平台與技術。
5️⃣資料處理流程自動化:學會使用 Python(如 Pandas、PySpark)建構數據處理自動化流程。
✅ 群組三:L223 大數據分析方法與工具
🔍 目的:強化數據分析邏輯與工具實作能力
重點編號核心重點說明
1️⃣統計與機器學習應用:應用監督式(分類、回歸)與非監督式(分群、PCA)方法分析數據問題。
2️⃣異常偵測與關聯分析:發掘異常模式與變數之間的關聯規則,用於風險預警與推薦系統。
3️⃣預測與時序分析:透過回歸、時間序列模型(如 ARIMA、LSTM)預測銷售、設備狀況等趨勢。
4️⃣資料降維與特徵工程:利用 PCA、特徵選擇技術簡化模型維度並提升模型效能。
5️⃣資料視覺化與解釋:使用工具如 Power BI、Tableau、Matplotlib、Seaborn 呈現資料洞察。
✅ 群組四:L224 大數據在人智慧之應用
🔍 目的:結合 AI 技術實作與倫理合規思維
重點編號核心重點說明
1️⃣大數據與機器學習整合:理解資料如何成為機器學習訓練的燃料,並應用於智慧化應用情境。
2️⃣鑑別式 AI 應用:透過模型如 SVM、決策樹、隨機森林做分類與預測判斷(如詐欺辨識)。
3️⃣生成式 AI 應用:使用 GPT、GAN 等模型進行文字生成、圖像合成與數據擴增應用。
4️⃣AI 模型部署與評估:涵蓋 AutoML、模型驗證(如 AUC、Precision、Recall)與運行監控。
5️⃣隱私保護與合規設計:強調 PII 去識別化、差分隱私、GDPR/個資法等資料合規管理機制。
L22 大數據處理分析與應用
├── L221 機率統計基礎 📘【數學基礎】
│ ├── L22101 敏感性統計與資料捕捉技術
│ │ ├─ 掌握混淆矩陣中的「靈敏度(Sensitivity)」、「特異性(Specificity)」與「準確率」
│ │ ├─ 了解資料捕捉策略:如樣本抽樣法(隨機抽樣、分層抽樣、叢集抽樣)
│ │ └─ 運用 ROC 曲線進行模型性能視覺化與最佳臨界值選擇
│ ├── L22102 機率分佈與資料分佈模型
│ │ ├─ 深入理解常見分佈(常態、指數、二項、Poisson)及其應用場景
│ │ ├─ 掌握機率密度函數(PDF)、累積分佈函數(CDF)與期望值計算
│ │ └─ 探討資料偏態(Skewness)與峰度(Kurtosis)對分析結果的影響
│ ├── L22103 假設檢定與統計推論
│ │ ├─ 建立零假設與對立假設,正確使用 Z 檢定與 T 檢定
│ │ ├─ 掌握顯著性水準(α)、p 值、型一錯誤與型二錯誤
│ │ └─ 應用信賴區間進行參數推論與效果估計
│
├── L222 大數據處理技術 🛠️【資料工程與處理】
│ ├── L22201 數據收集與清理
│ │ ├─ 資料來源類型:結構化(SQL)、半結構化(JSON)、非結構化(影像、文字)
│ │ ├─ 處理缺失值(如均值填補、刪除、不變編碼)與離群值辨識(Z-score、IQR)
│ │ └─ ETL流程:資料抽取(Extract)、轉換(Transform)、載入(Load)工具應用(如 Airflow)
│ ├── L22202 數據儲存與管理
│ │ ├─ 資料庫系統:關聯式資料庫(MySQL)與 NoSQL(MongoDB、Cassandra)比較
│ │ ├─ 分散式儲存技術:HDFS、Amazon S3、GCS 在大數據中的應用
│ │ └─ 資料一致性與可用性(CAP 理論:Consistency、Availability、Partition Tolerance)
│ ├── L22203 數據處理技術與工具
│ │ ├─ 熟練使用 Pandas 進行資料轉換、篩選、群組與整併
│ │ ├─ 使用 Spark 處理分散式大數據集與串流資料(Spark Streaming)
│ │ └─ 了解批次處理(Batch)與即時流處理(Stream)的差異與選用時機
│
├── L223 大數據分析方法與工具 🧠【模型分析】
│ ├── L22301 統計/機器人大數據中的應用
│ │ ├─ 使用統計迴歸(Linear, Logistic)與群聚分析(K-Means)進行資料建模
│ │ ├─ 機器學習演算法應用於大數據:例如隨機森林、梯度提升樹
│ │ └─ 利用分散式架構(如 Spark MLlib)進行模型訓練與推論
│ ├── L22302 常見的大數據分析方法
│ │ ├─ 關聯規則挖掘(Apriori、FP-Growth)應用於購物籃分析
│ │ ├─ 聚類分析(K-means、DBSCAN)找出異常與分群
│ │ └─ 使用主成分分析(PCA)與 t-SNE 進行維度縮減與視覺化
│ ├── L22303 數據可視化工具
│ │ ├─ 熟用 Python 圖表工具:matplotlib、seaborn、plotly
│ │ ├─ 資料儀表板開發:使用 Tableau、Power BI 架構即時呈現系統
│ │ └─ 可視化最佳實踐:選圖類型、圖表設計原則(色彩、標籤、比例)
│
├── L224 大數據在人智慧之應用 🔐【治理與應用】
│ ├── L22401 大數據與機器學習
│ │ ├─ 建立 ML pipeline:資料準備 → 特徵工程 → 模型訓練 → 驗證
│ │ ├─ 強調資料量與多樣性對模型準確率與泛化能力的重要性
│ │ └─ 使用自動化機器學習工具(AutoML)快速建模與優化
│ ├── L22402 大數據在鑑別式 AI 中的應用
│ │ ├─ 鑑別式模型:如 SVM、Logistic Regression 應用於分類與判斷任務
│ │ ├─ 實際案例:詐騙檢測、金融風控、醫療影像分類
│ │ └─ 模型精度與可解釋性的平衡(如 LIME、SHAP 分析)
│ ├── L22403 大數據在生成式 AI 中的應用
│ │ ├─ 探討 GPT、GAN 等模型如何生成文本、圖像或語音
│ │ ├─ 資料標註、擴增與合成對生成效果的影響
│ │ └─ 實例應用:文案生成、聊天機器人、影像擴散建模
│ ├── L22404 大數據隱私保護、安全與合規
│ │ ├─ 資料保護技術:匿名化、去識別化、差分隱私(Differential Privacy)
│ │ ├─ 合規法規:GDPR、CCPA、台灣個資法等應用規範
│ │ └─ 安全架構:ZTA(Zero Trust Architecture)與資料加密與權限控管機制


中級 L22 大數據處理分析與應用 科目二 模擬練習題目
1. 某企業希望分析顧客在網站上的點擊行為與轉換行為,應該使用哪種分析方法?
(A) 轉換率漏斗分析 (B) 卷積神經網路 (C) 異常偵測 (D) 時間序列分析
✅ 正解:A
📘 解析:轉換率漏斗分析可找出網站行為各階段的轉換落點與瓶頸。
2. 某醫療研究使用 MRI 影像與患者紀錄預測早期疾病徵兆,應用哪種技術最合適?
(A) 轉換率漏斗分析 (B) 卷積神經網路 (C) 異常偵測 (D) 時間序列分析
✅ 正解:B
📘 解析:CNN(卷積神經網路)為影像辨識中常用於醫療影像分析的模型。
3. 某零售平台希望辨識可能的詐騙訂單,應用哪種技術?
(A) 轉換率漏斗分析 (B) 卷積神經網路 (C) 異常偵測 (D) 時間序列分析
✅ 正解:C
📘 解析:異常偵測可發現偏離正常行為模式的交易紀錄,適合用於詐騙偵測。
4. 物流公司需即時追蹤貨運車輛並預測抵達時間,應使用?
(A) 轉換率漏斗分析 (B) 卷積神經網路 (C) 異常偵測 (D) 時間序列分析
✅ 正解:D
📘 解析:抵達時間預測屬連續性資料問題,適用時間序列模型。
5. 政府部門希望分析多年氣象資料找出氣候變遷趨勢,應用什麼方法?
(A) 轉換率漏斗分析 (B) 卷積神經網路 (C) 異常偵測 (D) 時間序列分析
✅ 正解:D
📘 解析:氣候資料具有時間性質,分析趨勢適合使用時間序列分析。
6. 電商平台希望推薦個別用戶可能感興趣的商品,應用何種技術?
(A) 分類模型 (B) 協同過濾 (C) 分群分析 (D) PCA
✅ 正解:B
📘 解析:協同過濾根據用戶行為與相似性進行推薦。
7. 醫療機構希望根據檢查報告預測病患罹病機率,應使用?
(A) 分類模型 (B) 分群模型 (C) PCA (D) K-Means
✅ 正解:A
📘 解析:病患罹病與否為二元結果,適用分類模型預測。
8. 製造業欲找出影響產品良率的關鍵製程參數,應採用?
(A) 分群分析 (B) 解釋性分析與回歸模型 (C) 降維分析 (D) 隨機抽樣
✅ 正解:B
📘 解析:解釋性分析(如多元回歸)能評估變數與結果的關聯性。
9. 金融業欲偵測信用卡盜刷行為,應優先採用哪種模型?
(A) 時間序列模型 (B) CNN (C) 異常偵測模型 (D) 多分類模型
✅ 正解:C
📘 解析:信用卡詐欺行為屬於異常事件,應用異常偵測技術較佳。
10. 教育平台依據學生上課行為與作業表現提供學習建議,應採用?
(A) 協同過濾 (B) 分類模型 (C) 行為預測模型 (D) 分群分析
✅ 正解:C
📘 解析:可建立行為模式與學習成效間的預測模型進行個人化建議。
11. 在 AI 系統部署前進行風險評估的主要目的為?
(A) 減少資料量 (B) 確保合規與使用安全 (C) 增加成本預算 (D) 強化網頁設計
✅ 正解:B
📘 解析:評估能降低模型風險,確保公平性與隱私合規。
12. 台灣個資法規定可識別個人資訊為?
(A) 裝置型號 (B) 性別統計 (C) 姓名、身分證字號 (D) 天氣紀錄
✅ 正解:C
📘 解析:姓名、身分證字號等為可識別資料,需受個資法保護。
13. 样本平均数的符号是?
(A) μ (B) σ (C) x̄ (D) n
✅ 正解:C
📘 解析:x̄ 是表示樣本平均數的統計符號。
14. 母體標準差的符號是?
(A) s (B) σ (C) x̄ (D) Z
✅ 正解:B
📘 解析:σ 表示母體的標準差。
15. 資料標準化的公式為?
(A) (X-μ)/σ (B) (X+x̄)/n (C) (X-σ)/μ (D) (X-n)/σ
✅ 正解:A
📘 解析:標準化公式即 z 分數 = (X-平均數)/標準差。
16. 下列哪一個屬於資料清理工作?
(A) 模型訓練 (B) 資料視覺化 (C) 補齊缺值 (D) 生成模型
✅ 正解:C
📘 解析:補值是資料清理中最常見的作業之一。
17. Hadoop HDFS 是一種?
(A) 資料庫 (B) 視覺化工具 (C) 分散式檔案系統 (D) 串流伺服器
✅ 正解:C
📘 解析:HDFS 是 Hadoop 的資料儲存核心組件。
18. 哪個技術可用於批次資料處理?
(A) Apache Kafka (B) Hadoop MapReduce (C) Power BI (D) KNN ✅ 正解:B
📘 解析:MapReduce 處理大規模批次數據運算任務。
19. PySpark 的基礎語言是?
(A) R (B) Scala (C) Java (D) Python ✅ 正解:D
📘 解析:PySpark 是 Spark 的 Python 接口 API。
20. Apache Kafka 的主要功能是?
(A) 批次處理 (B) 即時資料流處理 (C) 回歸分析 (D) 圖像建模
✅ 正解:B
📘 解析:Kafka 用於即時串流資料的發布與訂閱。
21. 資料視覺化的主要目的是?
(A) 提升記憶體效率 (B) 儲存大量資料 (C) 促進理解與發現趨勢 (D) 建立分類模型
✅ 正解:C
📘 解析:圖形化資料可幫助發現潛在模式與異常。
21. 企業對所有顧客做分群找出潛在高價值族群,適合使用?
(A) 分類模型 (B) 協同過濾 (C) 非監督式學習:分群分析 (D) NLP
✅ 正解:C
📘 解析:無標籤資料探索適合用分群方法找潛在族群。
22. 科技公司分析軟體使用者的滑鼠點擊路徑以優化使用者體驗?
(A) PCA (B) 頻繁路徑分析與視覺漏斗圖 (C) KNN (D) GAN
✅ 正解:B
📘 解析:漏斗與點擊路徑分析可視化轉換瓶頸與熱點。
23. 電商平台希望偵測刷評價的假帳號,應用方法?
(A) CNN (B) 隨機森林 (C) 異常偵測 + 行為模式比對 (D) TF-IDF
✅ 正解:C
📘 解析:評價模式異於常人行為者可判為異常帳號。
24. 語言學研究要分析上萬筆演講語料中常見句型,使用?
(A) TF-IDF + 分群分析 (B) GAN (C) 降維分析 (D) CNN
✅ 正解:A
📘 解析:TF-IDF 可量化語料常見詞彙,用分群找句型族群。
25. 醫療單位想即時接收設備異常通報並自動記錄分析?
(A) 批次處理架構 (B) 即時串流分析架構如 Spark Streaming (C) 資料壓縮架構 (D) NLP 模型
✅ 正解:B
📘 解析:即時設備異常屬流式資料需採用 Streaming 技術。
26. 物流公司分析遲到路線與時間模式進行改進,適合用?
(A) KNN (B) 時間序列聚類分析 (C) PCA (D) 回歸模型
✅ 正解:B
📘 解析:時間+空間資訊可進行時序型群組分析找異常路徑。
27. 學習平台需根據學生影片觀看長度與答題行為判斷理解力?
(A) 回歸模型 (B) 時間序列分析 (C) 分類模型 (D) 混合模型
✅ 正解:C
📘 解析:理解力分類屬類別預測,適用分類模型。
28. 農業機器人辨識不同成熟度的作物,應使用?
(A) PCA (B) CNN 圖像分類模型 (C) NLP 模型 (D) 分群分析
✅ 正解:B
📘 解析:影像判讀成熟程度為典型 CNN 應用情境。
29. 醫療單位利用結構化與非結構化病歷預測高風險患者,使用?
(A) 資料融合 + 分類模型 (B) 分群模型 (C) 時間序列模型 (D) NLP 生成模型
✅ 正解:A
📘 解析:結構與非結構資料融合是建立強健預測模型關鍵。
30. 金融分析師分析股價變動的週期性與趨勢,使用?
(A) TF-IDF (B) PCA (C) 時間序列分析(ARIMA) (D) NLP
✅ 正解:C
📘 解析:股價屬時間序列資料,常用 ARIMA、LSTM 模型分析。
分享我的數位商品:
iPAS AI應用規劃師(中級) 科目1+2 重點與題庫
科目一: 重點整理+40個專有名詞解說+200題模擬題目
科目二: 重點整理+50個專有名詞解說+250題模擬題目
筆記購買連結: https://vocus.cc/salon/678ac6e5fd89780001eb761c/products/AIM12