模型不準不是 AI 壞掉!問題都藏在「資料」裡:AI 規劃師的救火實錄

更新 發佈閱讀 6 分鐘

資料(數據)處理與分析,就是將海量的原始數據(Raw Data)轉變成高品質、可分析格式的過程。這是所有 AI 專案的基礎。統計學(Statistics)就是我們駕馭資料、獲得洞見的指南針

知識點拆解:資料處理的四大天王

整個資料處理流程可以拆解為四大核心步驟:

1. 數據蒐集 (Data Collection)

這是獲取原始資料的階段。我們首先要理解資料的結構類型

  • 結構化數據: 像 Excel 表格或傳統資料庫 (如 MySQL)。它們有清晰的行列結構,最方便分析。
  • 半結構化數據: 像 XML 或 JSON 檔案。它們有標籤但格式靈活,適用於複雜的層次化數據。
  • 非結構化數據: 圖片、影像、音訊、電子郵件等。它們沒有固定結構,需要深度學習(Deep Learning)或自然語言處理(NLP)技術進行預先解析。

2. 數據清洗 (Data Cleaning)

這是提升資料品質的關鍵步驟。我們在找資料裡的「髒東西」:

  • 遺缺值: 數據欄位空白。處理方式可能是使用統計方法(如平均值 Mean、中位數 Median)填補,或直接刪除記錄。
  • 重複值: 相同內容的記錄。識別後刪除重複項。
  • 錯誤值: 明顯不符合邏輯的值(例如年齡出現 -5 歲)。
  • 離群值: 遠離大多數數據點的異常值。需要根據業務判斷是錯誤還是有意義的極端事件。

3. 數據轉換 (Data Transformation)

將清洗後的資料變成演算法能理解的「語言」:

  • 數據正規化/標準化: 將不同單位和尺度的數值縮放到特定範圍(例Z-score),這是為了消除變數之間的影響,讓模型公平看待所有特徵。
  • 數據離散化: 把連續的數值轉換成區間或類別(例如把年齡從數字變成「青年」、「中年」)。
  • 數據縮減: 透過主成分分析 (PCA) 或特徵選擇,減少資料維度,提高效率。

4. 數據分析 (Data Analysis)

從處理好的資料中提取洞察。我們有四種主要分析類型:

  1. 敘述性分析: 描述數據「發生了什麼」。使用平均值、中位數、直方圖(Histogram)等。
  2. 探索性分析: 在沒有預設假設下,透過視覺化(如熱圖 Heatmap、箱型圖 Box Plot)發現資料潛在的模式和異常。 簡單來說,它就是: 「先發問,再找答案」 的自由探索模式。
  3. 診斷性分析: 探究特定現象「為什麼發生」。例如鑽取/向下分析(Drill-down Analysis)或因果分析(Causal Analysis)。
  4. 預測性分析: 預測「未來會發生什麼」。使用迴歸(Regression)、分類(Classification)等機器學習模型。

最基礎,一定要懂得的統計學核心概念(考試重點)

  • 平均數 (Mean)所有數值相加後除以資料個數。數據的「重心」或「平均水平」。計算簡單,易於理解。極端值(Outlier)影響極大。
  • 中位數 (Median)將數據排序後,位於正中間的數值。數據排序後最「中間」的數字。不受極端值影響,能更好反映中心趨勢。對複雜數學運算不敏感。
  • 標準差 (Standard Deviation)衡量一組數據分散程度的統計量。數據點離平均值有多遠。能量化描述數據的分散程度。計算相對複雜,受極端值影響。

假設你是一名新上任的AI應用規劃師,接手了某零售業客戶的專案。

你們的經理,王經理,是個非常焦慮的人。他衝進辦公室:「小李,我們的線上銷售預測模型怎麼那麼不準!上個月預測會大賣的商品,結果庫存積壓了一大堆!你快去查查看,是不是演算法壞了?」

你深吸一口氣,作為規劃師,你知道問題往往不是出在演算法(Algorithm)身上,而是資料。

你開始執行數據處理與分析的流程:

數據蒐集與清洗的「泥沼」

你從業務系統拉出過去三年的銷售數據。這份 Excel 檔案(結構化資料)看起來光鮮亮麗,但一執行探索性分析 (EDA),立刻發現問題:

  1. 遺失值問題: 許多訂單的「客戶地區」是空白的 (Missing Value)。
  2. 錯誤值與離群值: 有些訂單金額高達數百萬元,一看就是錯誤輸入或極端活動(例如團購大單),嚴重拉高了平均數(Mean)。
  3. 單位不一致: 銷售量一欄,有些單位是「個」,有些單位是「箱」,需要統一。

你立刻知道,如果直接用這份資料去訓練模型,結果一定會像王經理說的:不準!

規劃師決策點! (Decision Point)

此時,面對那些異常高額的訂單(離群值 Outliers),你必須做出決定:是刪除?還是修正?

你的規劃師決策點: 由於極端大單拉高了平均數,如果你用平均數來預測,模型會傾向高估未來銷售。為了讓預測更穩健,你決定:使用中位數(Median)來衡量一般銷售趨勢,並採用離群值處理策略——將極端高價的訂單(經查證後非錯誤輸入的)單獨標記為特殊事件,而非直接刪除,以避免丟失潛在的市場資訊。

你接著進行數據轉換,將銷售量全部換算成統一的「個」數,並執行數據標準化,讓「價格」和「促銷費用」這兩個單位差距很大的特徵在模型中能夠被公平對待。

總結與連結:

透過這整個流程,你意識到 AI應用規劃師的核心價值,就在於數據品質管理。資料處理與分析是機器學習成功的首要條件。只有高品質的資料,才能訓練出穩定且具有泛化能力的預測模型。你確保了資料的「底層邏輯」是健康的,這才能讓後續的機器學習和生成式 AI發揮真正的價值!

想瞭解更多,歡迎到我的Youtube頻道,一起用聽的學習:直接看影片

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
0會員
18內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
iPAS AI 自學路的其他內容
2025/10/15
1. 專有名詞拆解:AI 的定義與本質 專有名詞:人工智慧 (Artificial Intelligence, AI) 技術原理/底層邏輯: AI 是一種模擬人類智慧的技術,核心目標是讓機器能夠執行原本需要人類智慧才能完成的任務。這包含了學習、推理、解決問題和感知環境等能力。 關鍵發展驅動力:
2025/10/15
1. 專有名詞拆解:AI 的定義與本質 專有名詞:人工智慧 (Artificial Intelligence, AI) 技術原理/底層邏輯: AI 是一種模擬人類智慧的技術,核心目標是讓機器能夠執行原本需要人類智慧才能完成的任務。這包含了學習、推理、解決問題和感知環境等能力。 關鍵發展驅動力:
2025/10/14
iPAS AI 應用規劃師(初級)整體評鑑架構分為兩大科目,科目設計的順序是從基礎知識到實戰應用規劃: 科目一:人工智慧基礎概論 (AI 的基礎常識與燃料) 這科是奠定你 AI 知識基礎的科目。它涵蓋了
2025/10/14
iPAS AI 應用規劃師(初級)整體評鑑架構分為兩大科目,科目設計的順序是從基礎知識到實戰應用規劃: 科目一:人工智慧基礎概論 (AI 的基礎常識與燃料) 這科是奠定你 AI 知識基礎的科目。它涵蓋了
2025/10/14
我是「iPAS AI 自學路」的學伴,一位深知時間寶貴的非本科系中年上班族。這裡不只是單向教學,更是我們互相扶持、一同高效取證的共學基地。 「雙軌學習法」:零碎時間變戰力 我們專為忙碌的你設計了學習策略,將零碎時間轉化為有效戰力: 🎧 YouTube頻道:影片控制在 15-30 分鐘,讓你通
Thumbnail
2025/10/14
我是「iPAS AI 自學路」的學伴,一位深知時間寶貴的非本科系中年上班族。這裡不只是單向教學,更是我們互相扶持、一同高效取證的共學基地。 「雙軌學習法」:零碎時間變戰力 我們專為忙碌的你設計了學習策略,將零碎時間轉化為有效戰力: 🎧 YouTube頻道:影片控制在 15-30 分鐘,讓你通
Thumbnail
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News