
接著會詳細的介紹機器學習的每一個步驟在做什麼,這部分專有名詞會比較多,希望大家可以盡量熟悉。
🙋問題定義
在真正進入機器學習流程之前,需要先定義你想要解決的問題。 如何將你的問題、你的痛點,轉換成機器學習可以執行的任務是你們會遇到的第一個難題,原則上可以遵循以下方法來思考:
🎯評估步驟
🧠1. 腦力激盪: 發想有哪些潛在問題、痛點
- 如:達到KPI指標、工作流程改善、降低人力成本...等
- 可以從"不一樣"、"變異大"、"人工多"的方向開始
- 同一個工作,但"流程"不一樣
- 同一個工作,但"完成時間"變異大
- 同樣的流程,但"人工步驟"多
💰2. 效益分析: 從價值、成本與可行性下手

🥇3. 任務排序
由於資源有效,因此需要根據「效益分析」結果進行任務排序:
✅ 優先執行:
- 效益高
- 成本低
- 資料與技術可行性高的任務
📸資料收集 (Data Collection)
選好題目後,接下來的步驟是資料收集,資料來源可以是:CSV 檔、資料庫、API、感測器、開源資料集...等,依據要進行的任務挑選適合的資料集來使用。 資料收集看似很簡單但其實是專案能不能成功很關鍵的一步,因為要確實收集到跟任務相關的資料才有用,通常需要仰賴Domain Knowledge(領域知識)來進行。 例如想做鳶尾花的品種分類,就要找植物專家幫忙定義要收集什麼資料特徵,才能保證這些收集的資料確實可以用於品種分類。
- 通常需具備Domain Knowledge
- 常用工具:各式DataBase、SQL語法、網路爬蟲、kaggle API
- 資料型態又可以分為:結構性資料與非結構性資料
🧱 什麼是結構性資料(Structured Data)?
結構性資料指的是符合 表格格式(Row & Column),且具有 明確欄位名稱與資料型別的資料。每一筆資料都有一致的格式,通常儲存在資料庫、CSV 或 Excel 表格中。
✅ 特點:
- 欄位固定、資料類型明確(如整數、浮點數、類別)
- 容易儲存在關聯式資料庫(如 MySQL、PostgreSQL)
- 易於查詢、分析、建模
- 最常用於傳統機器學習任務
📦 範例:

🌐 什麼是非結構性資料(Unstructured Data)?
非結構性資料指的是沒有固定格式、無法直接以欄位表示的資料類型,常見於文字、圖片、影片、聲音等形式。
❗ 特點:
- 沒有表格結構、需要額外處理轉換
- 無法直接用傳統模型分析
- 需要使用 自然語言處理(NLP)、電腦視覺(CV) 等技術
- 常用於深度學習任務
📦 範例:
- 文本:產品評論、新聞文章、推文
- 影像:臉部辨識、醫學影像
- 聲音:語音辨識、音樂分析
📊 資料類型比較

📌 小結
- 結構化資料:最常用於基礎 ML 教學與競賽,適合用來學習資料處理、建模與特徵工程。
- 非結構化資料:需進階技術轉換為結構化格式後才可建模。
- 大部分的傳統機器學習演算法都依賴結構化格式的 X(特徵)+ Y(標籤) 進行訓練。
📦 資料前處理(Data Preprocessing)
資料前處理是機器學習流程中的「清潔階段」,主要目的是將原始資料轉換為可被模型理解與使用的格式。以及將原始資料中蘊含的雜訊、異常值等垃圾資訊清除乾淨。大家在這個階段可以先專注在"結構型資料"的處理即可。
💡這是進入建立模型階段前不可或缺的前置作業。

🛠️ 特徵工程 (Feature Engineering)
特徵工程是資料處理的進階階段,重點在於創造或轉換出有助於模型表現的特徵,對於不同特徵類型會有不同的特徵工程技術。
📊結構型資料
結構化資料(如表格、數值、類別資料)具有固定的欄位格式,因此可以進行各種數值與類別處理。

🎶非結構型資料
非結構化資料(如文字、圖片、音訊)需要先經過專門處理才能提取出可供機器學習使用的特徵。
📚 文字資料(NLP)

🖼️ 圖像資料(CV)

🔊 聲音資料

🧠 延伸說明:不同資料 → 不同處理策略

🔄 資料前處理 vs 特徵工程
相信有很多人跟我一樣,上完機器學習概述之後還不知道"資料前處理"跟"特徵工程"有什麼差別,這裡也幫大家整理好一個表格了!!! 簡單來說:
- 資料前處理: 讓原始資料變成能使用的乾淨資料
- 特徵工程: 在乾淨資料的前提下,讓模型能力更強!!!
