《從零開始的資料科學筆記》Day#12:機器學習流程-上

更新 發佈閱讀 5 分鐘
raw-image

接著會詳細的介紹機器學習的每一個步驟在做什麼,這部分專有名詞會比較多,希望大家可以盡量熟悉。

🙋問題定義

在真正進入機器學習流程之前,需要先定義你想要解決的問題。 如何將你的問題、你的痛點,轉換成機器學習可以執行的任務是你們會遇到的第一個難題,原則上可以遵循以下方法來思考:

🎯評估步驟

🧠1. 腦力激盪: 發想有哪些潛在問題、痛點

  • 如:達到KPI指標、工作流程改善、降低人力成本...等
  • 可以從"不一樣"、"變異大"、"人工多"的方向開始
    • 同一個工作,但"流程"不一樣
    • 同一個工作,但"完成時間"變異大
    • 同樣的流程,但"人工步驟"多

💰2. 效益分析: 從價值、成本與可行性下手

raw-image

🥇3. 任務排序

由於資源有效,因此需要根據「效益分析」結果進行任務排序:

✅ 優先執行:

  • 效益高
  • 成本低
  • 資料與技術可行性高的任務

📸資料收集 (Data Collection)

選好題目後,接下來的步驟是資料收集,資料來源可以是:CSV 檔、資料庫、API、感測器、開源資料集...等,依據要進行的任務挑選適合的資料集來使用。 資料收集看似很簡單但其實是專案能不能成功很關鍵的一步,因為要確實收集到跟任務相關的資料才有用,通常需要仰賴Domain Knowledge(領域知識)來進行。 例如想做鳶尾花的品種分類,就要找植物專家幫忙定義要收集什麼資料特徵,才能保證這些收集的資料確實可以用於品種分類。

  • 通常需具備Domain Knowledge
  • 常用工具:各式DataBase、SQL語法、網路爬蟲、kaggle API
  • 資料型態又可以分為:結構性資料與非結構性資料

🧱 什麼是結構性資料(Structured Data)?

結構性資料指的是符合 表格格式(Row & Column),且具有 明確欄位名稱與資料型別的資料。每一筆資料都有一致的格式,通常儲存在資料庫、CSV 或 Excel 表格中。

✅ 特點:

  • 欄位固定、資料類型明確(如整數、浮點數、類別)
  • 容易儲存在關聯式資料庫(如 MySQL、PostgreSQL)
  • 易於查詢、分析、建模
  • 最常用於傳統機器學習任務

📦 範例:

raw-image

🌐 什麼是非結構性資料(Unstructured Data)?

非結構性資料指的是沒有固定格式、無法直接以欄位表示的資料類型,常見於文字、圖片、影片、聲音等形式。

❗ 特點:

  • 沒有表格結構、需要額外處理轉換
  • 無法直接用傳統模型分析
  • 需要使用 自然語言處理(NLP)、電腦視覺(CV) 等技術
  • 常用於深度學習任務

📦 範例:

  • 文本:產品評論、新聞文章、推文
  • 影像:臉部辨識、醫學影像
  • 聲音:語音辨識、音樂分析

📊 資料類型比較

raw-image

📌 小結

  • 結構化資料:最常用於基礎 ML 教學與競賽,適合用來學習資料處理、建模與特徵工程。
  • 非結構化資料:需進階技術轉換為結構化格式後才可建模。
  • 大部分的傳統機器學習演算法都依賴結構化格式的 X(特徵)+ Y(標籤) 進行訓練。

📦 資料前處理(Data Preprocessing)

資料前處理是機器學習流程中的「清潔階段」,主要目的是將原始資料轉換為可被模型理解與使用的格式。以及將原始資料中蘊含的雜訊、異常值等垃圾資訊清除乾淨。大家在這個階段可以先專注在"結構型資料"的處理即可。

💡這是進入建立模型階段前不可或缺的前置作業。

raw-image

🛠️ 特徵工程 (Feature Engineering)

特徵工程是資料處理的進階階段,重點在於創造或轉換出有助於模型表現的特徵,對於不同特徵類型會有不同的特徵工程技術。

📊結構型資料

結構化資料(如表格、數值、類別資料)具有固定的欄位格式,因此可以進行各種數值與類別處理。

raw-image

🎶非結構型資料

非結構化資料(如文字、圖片、音訊)需要先經過專門處理才能提取出可供機器學習使用的特徵。

📚 文字資料(NLP)

raw-image

🖼️ 圖像資料(CV)

raw-image

🔊 聲音資料

raw-image

🧠 延伸說明:不同資料 → 不同處理策略

raw-image

🔄 資料前處理 vs 特徵工程

相信有很多人跟我一樣,上完機器學習概述之後還不知道"資料前處理"跟"特徵工程"有什麼差別,這裡也幫大家整理好一個表格了!!! 簡單來說:

  • 資料前處理: 讓原始資料變成能使用的乾淨資料
  • 特徵工程: 在乾淨資料的前提下,讓模型能力更強!!!
raw-image


留言
avatar-img
留言分享你的想法!
avatar-img
Ethan的AI學習筆記
4會員
27內容數
我是一個不務正業的資料科學家,從零開始學習的路途上跌跌撞撞,跌過許多坑,也撞過許多牆... 當有人迷失方向時,希望這些筆記可以成為你的指南針。
Ethan的AI學習筆記的其他內容
2025/07/05
🔍 為什麼要學機器學習? 在這個資料驅動的時代,從圖像辨識、語音助手到金融風險預測,都離不開機器學習。 透過「從資料中自動學習規則」的能力,機器學習幫助我們: 自動化決策流程(例如:信貸核准) 從龐大資料中發現趨勢與模式(例如:顧客行為分析) 增強傳統演算法的適應力與預測能力
Thumbnail
2025/07/05
🔍 為什麼要學機器學習? 在這個資料驅動的時代,從圖像辨識、語音助手到金融風險預測,都離不開機器學習。 透過「從資料中自動學習規則」的能力,機器學習幫助我們: 自動化決策流程(例如:信貸核准) 從龐大資料中發現趨勢與模式(例如:顧客行為分析) 增強傳統演算法的適應力與預測能力
Thumbnail
2025/06/27
在輔導學員的時候遇過很多初學者會搞不清楚到底模型是什麼?訓練又是怎麼一回事? 因此這篇文章主要是提供初學者一些簡單的概念,知道”模型”和”訓練”是在做什麼,不涉及程式碼撰寫與執行。 希望藉由簡單的說明讓大家可以先了解這些基本概念,可以加快後續實際操作上手的時間。
Thumbnail
2025/06/27
在輔導學員的時候遇過很多初學者會搞不清楚到底模型是什麼?訓練又是怎麼一回事? 因此這篇文章主要是提供初學者一些簡單的概念,知道”模型”和”訓練”是在做什麼,不涉及程式碼撰寫與執行。 希望藉由簡單的說明讓大家可以先了解這些基本概念,可以加快後續實際操作上手的時間。
Thumbnail
2025/06/23
🙋‍♀️ 什麼是特徵(Feature)? 想像一個情境: 你想領養一隻小狗,到了收容所後,該怎麼跟承辦人員描述你想要的狗狗呢? 你可能會說:「我想要一隻可愛的小狗。」 但這樣的描述太模糊了,對方可能無法立刻理解你的偏好。
Thumbnail
2025/06/23
🙋‍♀️ 什麼是特徵(Feature)? 想像一個情境: 你想領養一隻小狗,到了收容所後,該怎麼跟承辦人員描述你想要的狗狗呢? 你可能會說:「我想要一隻可愛的小狗。」 但這樣的描述太模糊了,對方可能無法立刻理解你的偏好。
Thumbnail
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
AI 相關的內容每天都非常多,有聽過很多人因此感覺到焦慮,怕錯過了最新資訊就會趕不上,這篇內容會跟大家詳細的分享我自己的學習方法和經驗,並且會在最後分享一些我的學習資訊來源。
Thumbnail
AI 相關的內容每天都非常多,有聽過很多人因此感覺到焦慮,怕錯過了最新資訊就會趕不上,這篇內容會跟大家詳細的分享我自己的學習方法和經驗,並且會在最後分享一些我的學習資訊來源。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News