資料(數據)處理與分析,就是將海量的原始數據(Raw Data)轉變成高品質、可分析格式的過程。這是所有 AI 專案的基礎。統計學(Statistics)就是我們駕馭資料、獲得洞見的指南針。
知識點拆解:資料處理的四大天王
整個資料處理流程可以拆解為四大核心步驟:
1. 數據蒐集 (Data Collection)
這是獲取原始資料的階段。我們首先要理解資料的結構類型:
- 結構化數據: 像 Excel 表格或傳統資料庫 (如 MySQL)。它們有清晰的行列結構,最方便分析。
- 半結構化數據: 像 XML 或 JSON 檔案。它們有標籤但格式靈活,適用於複雜的層次化數據。
- 非結構化數據: 圖片、影像、音訊、電子郵件等。它們沒有固定結構,需要深度學習(Deep Learning)或自然語言處理(NLP)技術進行預先解析。
2. 數據清洗 (Data Cleaning)
這是提升資料品質的關鍵步驟。我們在找資料裡的「髒東西」:
- 遺缺值: 數據欄位空白。處理方式可能是使用統計方法(如平均值 Mean、中位數 Median)填補,或直接刪除記錄。
- 重複值: 相同內容的記錄。識別後刪除重複項。
- 錯誤值: 明顯不符合邏輯的值(例如年齡出現 -5 歲)。
- 離群值: 遠離大多數數據點的異常值。需要根據業務判斷是錯誤還是有意義的極端事件。
3. 數據轉換 (Data Transformation)
將清洗後的資料變成演算法能理解的「語言」:
- 數據正規化/標準化: 將不同單位和尺度的數值縮放到特定範圍(例Z-score),這是為了消除變數之間的影響,讓模型公平看待所有特徵。
- 數據離散化: 把連續的數值轉換成區間或類別(例如把年齡從數字變成「青年」、「中年」)。
- 數據縮減: 透過主成分分析 (PCA) 或特徵選擇,減少資料維度,提高效率。
4. 數據分析 (Data Analysis)
從處理好的資料中提取洞察。我們有四種主要分析類型:
- 敘述性分析: 描述數據「發生了什麼」。使用平均值、中位數、直方圖(Histogram)等。
- 探索性分析: 在沒有預設假設下,透過視覺化(如熱圖 Heatmap、箱型圖 Box Plot)發現資料潛在的模式和異常。 簡單來說,它就是: 「先發問,再找答案」 的自由探索模式。
- 診斷性分析: 探究特定現象「為什麼發生」。例如鑽取/向下分析(Drill-down Analysis)或因果分析(Causal Analysis)。
- 預測性分析: 預測「未來會發生什麼」。使用迴歸(Regression)、分類(Classification)等機器學習模型。
最基礎,一定要懂得的統計學核心概念(考試重點)
- 平均數 (Mean)所有數值相加後除以資料個數。數據的「重心」或「平均水平」。計算簡單,易於理解。極端值(Outlier)影響極大。
- 中位數 (Median)將數據排序後,位於正中間的數值。數據排序後最「中間」的數字。不受極端值影響,能更好反映中心趨勢。對複雜數學運算不敏感。
- 標準差 (Standard Deviation)衡量一組數據分散程度的統計量。數據點離平均值有多遠。能量化描述數據的分散程度。計算相對複雜,受極端值影響。
假設你是一名新上任的AI應用規劃師,接手了某零售業客戶的專案。
你們的經理,王經理,是個非常焦慮的人。他衝進辦公室:「小李,我們的線上銷售預測模型怎麼那麼不準!上個月預測會大賣的商品,結果庫存積壓了一大堆!你快去查查看,是不是演算法壞了?」
你深吸一口氣,作為規劃師,你知道問題往往不是出在演算法(Algorithm)身上,而是資料。
你開始執行數據處理與分析的流程:
數據蒐集與清洗的「泥沼」
你從業務系統拉出過去三年的銷售數據。這份 Excel 檔案(結構化資料)看起來光鮮亮麗,但一執行探索性分析 (EDA),立刻發現問題:
- 遺失值問題: 許多訂單的「客戶地區」是空白的 (Missing Value)。
- 錯誤值與離群值: 有些訂單金額高達數百萬元,一看就是錯誤輸入或極端活動(例如團購大單),嚴重拉高了平均數(Mean)。
- 單位不一致: 銷售量一欄,有些單位是「個」,有些單位是「箱」,需要統一。
你立刻知道,如果直接用這份資料去訓練模型,結果一定會像王經理說的:不準!
規劃師決策點! (Decision Point)
此時,面對那些異常高額的訂單(離群值 Outliers),你必須做出決定:是刪除?還是修正?
你的規劃師決策點: 由於極端大單拉高了平均數,如果你用平均數來預測,模型會傾向高估未來銷售。為了讓預測更穩健,你決定:使用中位數(Median)來衡量一般銷售趨勢,並採用離群值處理策略——將極端高價的訂單(經查證後非錯誤輸入的)單獨標記為特殊事件,而非直接刪除,以避免丟失潛在的市場資訊。
你接著進行數據轉換,將銷售量全部換算成統一的「個」數,並執行數據標準化,讓「價格」和「促銷費用」這兩個單位差距很大的特徵在模型中能夠被公平對待。
總結與連結:
透過這整個流程,你意識到 AI應用規劃師的核心價值,就在於數據品質管理。資料處理與分析是機器學習成功的首要條件。只有高品質的資料,才能訓練出穩定且具有泛化能力的預測模型。你確保了資料的「底層邏輯」是健康的,這才能讓後續的機器學習和生成式 AI發揮真正的價值!
想瞭解更多,歡迎到我的Youtube頻道,一起用聽的學習:直接看影片