《從零開始的資料科學筆記》Day#12:機器學習流程-上

Ethan伊森

發佈於《從零開始的資料科學筆記》

2025/07/16 更新2025/07/16 發佈閱讀 5 分鐘

接著會詳細的介紹機器學習的每一個步驟在做什麼，這部分專有名詞會比較多，希望大家可以盡量熟悉。

🙋問題定義

在真正進入機器學習流程之前，需要先定義你想要解決的問題。如何將你的問題、你的痛點，轉換成機器學習可以執行的任務是你們會遇到的第一個難題，原則上可以遵循以下方法來思考:

🎯評估步驟

🧠1. 腦力激盪: 發想有哪些潛在問題、痛點

如:達到KPI指標、工作流程改善、降低人力成本...等
可以從"不一樣"、"變異大"、"人工多"的方向開始
- 同一個工作，但"流程"不一樣
- 同一個工作，但"完成時間"變異大
- 同樣的流程，但"人工步驟"多

💰2. 效益分析: 從價值、成本與可行性下手

🥇3. 任務排序

由於資源有效，因此需要根據「效益分析」結果進行任務排序：

✅ 優先執行：

效益高
成本低
資料與技術可行性高的任務

📸資料收集 (Data Collection)

選好題目後，接下來的步驟是資料收集，資料來源可以是：CSV 檔、資料庫、API、感測器、開源資料集...等，依據要進行的任務挑選適合的資料集來使用。資料收集看似很簡單但其實是專案能不能成功很關鍵的一步，因為要確實收集到跟任務相關的資料才有用，通常需要仰賴Domain Knowledge(領域知識)來進行。例如想做鳶尾花的品種分類，就要找植物專家幫忙定義要收集什麼資料特徵，才能保證這些收集的資料確實可以用於品種分類。

通常需具備Domain Knowledge
常用工具：各式DataBase、SQL語法、網路爬蟲、kaggle API
資料型態又可以分為:結構性資料與非結構性資料

🧱 什麼是結構性資料（Structured Data）？

結構性資料指的是符合表格格式（Row & Column），且具有明確欄位名稱與資料型別的資料。每一筆資料都有一致的格式，通常儲存在資料庫、CSV 或 Excel 表格中。

✅ 特點：

欄位固定、資料類型明確（如整數、浮點數、類別）
容易儲存在關聯式資料庫（如 MySQL、PostgreSQL）
易於查詢、分析、建模
最常用於傳統機器學習任務

📦 範例：

🌐 什麼是非結構性資料（Unstructured Data）？

非結構性資料指的是沒有固定格式、無法直接以欄位表示的資料類型，常見於文字、圖片、影片、聲音等形式。

❗ 特點：

沒有表格結構、需要額外處理轉換
無法直接用傳統模型分析
需要使用自然語言處理（NLP）、電腦視覺（CV）等技術
常用於深度學習任務

📦 範例：

文本：產品評論、新聞文章、推文
影像：臉部辨識、醫學影像
聲音：語音辨識、音樂分析

📊 資料類型比較

📌 小結

結構化資料：最常用於基礎 ML 教學與競賽，適合用來學習資料處理、建模與特徵工程。
非結構化資料：需進階技術轉換為結構化格式後才可建模。
大部分的傳統機器學習演算法都依賴結構化格式的 X（特徵）+ Y（標籤）進行訓練。

📦 資料前處理（Data Preprocessing）

資料前處理是機器學習流程中的「清潔階段」，主要目的是將原始資料轉換為可被模型理解與使用的格式。以及將原始資料中蘊含的雜訊、異常值等垃圾資訊清除乾淨。大家在這個階段可以先專注在"結構型資料"的處理即可。

💡這是進入建立模型階段前不可或缺的前置作業。

🛠️ 特徵工程 (Feature Engineering)

特徵工程是資料處理的進階階段，重點在於創造或轉換出有助於模型表現的特徵，對於不同特徵類型會有不同的特徵工程技術。

📊結構型資料

結構化資料（如表格、數值、類別資料）具有固定的欄位格式，因此可以進行各種數值與類別處理。

🎶非結構型資料

非結構化資料（如文字、圖片、音訊）需要先經過專門處理才能提取出可供機器學習使用的特徵。

📚 文字資料（NLP）

🖼️ 圖像資料（CV）

🔊 聲音資料

🧠 延伸說明：不同資料 → 不同處理策略

🔄 資料前處理 vs 特徵工程

相信有很多人跟我一樣，上完機器學習概述之後還不知道"資料前處理"跟"特徵工程"有什麼差別，這裡也幫大家整理好一個表格了!!! 簡單來說:

資料前處理: 讓原始資料變成能使用的乾淨資料
特徵工程: 在乾淨資料的前提下，讓模型能力更強!!!

Ethan的AI學習筆記《從零開始的資料科學筆記》

留言

留言分享你的想法！

Ethan的AI學習筆記

4會員

29內容數

我是一個不務正業的資料科學家，從零開始學習的路途上跌跌撞撞，跌過許多坑，也撞過許多牆... 當有人迷失方向時，希望這些筆記可以成為你的指南針。

Ethan的AI學習筆記的其他內容

2025/07/05

《從零開始的資料科學筆記》Day#11:機器學習概述

🔍 為什麼要學機器學習？在這個資料驅動的時代，從圖像辨識、語音助手到金融風險預測，都離不開機器學習。透過「從資料中自動學習規則」的能力，機器學習幫助我們：自動化決策流程（例如：信貸核准）從龐大資料中發現趨勢與模式（例如：顧客行為分析）增強傳統演算法的適應力與預測能力

2025/07/05

《從零開始的資料科學筆記》Day#11:機器學習概述

2025/06/27

《從零開始的資料科學筆記》Day#10:模型挑選、訓練與推論

在輔導學員的時候遇過很多初學者會搞不清楚到底模型是什麼?訓練又是怎麼一回事? 因此這篇文章主要是提供初學者一些簡單的概念，知道”模型”和”訓練”是在做什麼，不涉及程式碼撰寫與執行。希望藉由簡單的說明讓大家可以先了解這些基本概念，可以加快後續實際操作上手的時間。

2025/06/27

《從零開始的資料科學筆記》Day#10:模型挑選、訓練與推論

2025/06/23

《從零開始的資料科學筆記》Day#9: 特徵工程

🙋‍♀️ 什麼是特徵（Feature）？想像一個情境：你想領養一隻小狗，到了收容所後，該怎麼跟承辦人員描述你想要的狗狗呢？你可能會說：「我想要一隻可愛的小狗。」但這樣的描述太模糊了，對方可能無法立刻理解你的偏好。

2025/06/23

《從零開始的資料科學筆記》Day#9: 特徵工程

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15