vocus logo

方格子 vocus

《從零開始的資料科學筆記》Day#12:機器學習流程-上

更新 發佈閱讀 5 分鐘
raw-image

接著會詳細的介紹機器學習的每一個步驟在做什麼,這部分專有名詞會比較多,希望大家可以盡量熟悉。

🙋問題定義

在真正進入機器學習流程之前,需要先定義你想要解決的問題。 如何將你的問題、你的痛點,轉換成機器學習可以執行的任務是你們會遇到的第一個難題,原則上可以遵循以下方法來思考:

🎯評估步驟

🧠1. 腦力激盪: 發想有哪些潛在問題、痛點

  • 如:達到KPI指標、工作流程改善、降低人力成本...等
  • 可以從"不一樣"、"變異大"、"人工多"的方向開始
    • 同一個工作,但"流程"不一樣
    • 同一個工作,但"完成時間"變異大
    • 同樣的流程,但"人工步驟"多

💰2. 效益分析: 從價值、成本與可行性下手

raw-image

🥇3. 任務排序

由於資源有效,因此需要根據「效益分析」結果進行任務排序:

✅ 優先執行:

  • 效益高
  • 成本低
  • 資料與技術可行性高的任務

📸資料收集 (Data Collection)

選好題目後,接下來的步驟是資料收集,資料來源可以是:CSV 檔、資料庫、API、感測器、開源資料集...等,依據要進行的任務挑選適合的資料集來使用。 資料收集看似很簡單但其實是專案能不能成功很關鍵的一步,因為要確實收集到跟任務相關的資料才有用,通常需要仰賴Domain Knowledge(領域知識)來進行。 例如想做鳶尾花的品種分類,就要找植物專家幫忙定義要收集什麼資料特徵,才能保證這些收集的資料確實可以用於品種分類。

  • 通常需具備Domain Knowledge
  • 常用工具:各式DataBase、SQL語法、網路爬蟲、kaggle API
  • 資料型態又可以分為:結構性資料與非結構性資料

🧱 什麼是結構性資料(Structured Data)?

結構性資料指的是符合 表格格式(Row & Column),且具有 明確欄位名稱與資料型別的資料。每一筆資料都有一致的格式,通常儲存在資料庫、CSV 或 Excel 表格中。

✅ 特點:

  • 欄位固定、資料類型明確(如整數、浮點數、類別)
  • 容易儲存在關聯式資料庫(如 MySQL、PostgreSQL)
  • 易於查詢、分析、建模
  • 最常用於傳統機器學習任務

📦 範例:

raw-image

🌐 什麼是非結構性資料(Unstructured Data)?

非結構性資料指的是沒有固定格式、無法直接以欄位表示的資料類型,常見於文字、圖片、影片、聲音等形式。

❗ 特點:

  • 沒有表格結構、需要額外處理轉換
  • 無法直接用傳統模型分析
  • 需要使用 自然語言處理(NLP)、電腦視覺(CV) 等技術
  • 常用於深度學習任務

📦 範例:

  • 文本:產品評論、新聞文章、推文
  • 影像:臉部辨識、醫學影像
  • 聲音:語音辨識、音樂分析

📊 資料類型比較

raw-image

📌 小結

  • 結構化資料:最常用於基礎 ML 教學與競賽,適合用來學習資料處理、建模與特徵工程。
  • 非結構化資料:需進階技術轉換為結構化格式後才可建模。
  • 大部分的傳統機器學習演算法都依賴結構化格式的 X(特徵)+ Y(標籤) 進行訓練。

📦 資料前處理(Data Preprocessing)

資料前處理是機器學習流程中的「清潔階段」,主要目的是將原始資料轉換為可被模型理解與使用的格式。以及將原始資料中蘊含的雜訊、異常值等垃圾資訊清除乾淨。大家在這個階段可以先專注在"結構型資料"的處理即可。

💡這是進入建立模型階段前不可或缺的前置作業。

raw-image

🛠️ 特徵工程 (Feature Engineering)

特徵工程是資料處理的進階階段,重點在於創造或轉換出有助於模型表現的特徵,對於不同特徵類型會有不同的特徵工程技術。

📊結構型資料

結構化資料(如表格、數值、類別資料)具有固定的欄位格式,因此可以進行各種數值與類別處理。

raw-image

🎶非結構型資料

非結構化資料(如文字、圖片、音訊)需要先經過專門處理才能提取出可供機器學習使用的特徵。

📚 文字資料(NLP)

raw-image

🖼️ 圖像資料(CV)

raw-image

🔊 聲音資料

raw-image

🧠 延伸說明:不同資料 → 不同處理策略

raw-image

🔄 資料前處理 vs 特徵工程

相信有很多人跟我一樣,上完機器學習概述之後還不知道"資料前處理"跟"特徵工程"有什麼差別,這裡也幫大家整理好一個表格了!!! 簡單來說:

  • 資料前處理: 讓原始資料變成能使用的乾淨資料
  • 特徵工程: 在乾淨資料的前提下,讓模型能力更強!!!
raw-image


留言
avatar-img
Ethan的AI學習筆記
8會員
33內容數
我是一個不務正業的資料科學家,從零開始學習的路途上跌跌撞撞,跌過許多坑,也撞過許多牆... 當有人迷失方向時,希望這些筆記可以成為你的指南針。
Ethan的AI學習筆記的其他內容
2025/07/05
🔍 為什麼要學機器學習? 在這個資料驅動的時代,從圖像辨識、語音助手到金融風險預測,都離不開機器學習。 透過「從資料中自動學習規則」的能力,機器學習幫助我們: 自動化決策流程(例如:信貸核准) 從龐大資料中發現趨勢與模式(例如:顧客行為分析) 增強傳統演算法的適應力與預測能力
Thumbnail
2025/07/05
🔍 為什麼要學機器學習? 在這個資料驅動的時代,從圖像辨識、語音助手到金融風險預測,都離不開機器學習。 透過「從資料中自動學習規則」的能力,機器學習幫助我們: 自動化決策流程(例如:信貸核准) 從龐大資料中發現趨勢與模式(例如:顧客行為分析) 增強傳統演算法的適應力與預測能力
Thumbnail
2025/06/27
在輔導學員的時候遇過很多初學者會搞不清楚到底模型是什麼?訓練又是怎麼一回事? 因此這篇文章主要是提供初學者一些簡單的概念,知道”模型”和”訓練”是在做什麼,不涉及程式碼撰寫與執行。 希望藉由簡單的說明讓大家可以先了解這些基本概念,可以加快後續實際操作上手的時間。
Thumbnail
2025/06/27
在輔導學員的時候遇過很多初學者會搞不清楚到底模型是什麼?訓練又是怎麼一回事? 因此這篇文章主要是提供初學者一些簡單的概念,知道”模型”和”訓練”是在做什麼,不涉及程式碼撰寫與執行。 希望藉由簡單的說明讓大家可以先了解這些基本概念,可以加快後續實際操作上手的時間。
Thumbnail
2025/06/23
🙋‍♀️ 什麼是特徵(Feature)? 想像一個情境: 你想領養一隻小狗,到了收容所後,該怎麼跟承辦人員描述你想要的狗狗呢? 你可能會說:「我想要一隻可愛的小狗。」 但這樣的描述太模糊了,對方可能無法立刻理解你的偏好。
Thumbnail
2025/06/23
🙋‍♀️ 什麼是特徵(Feature)? 想像一個情境: 你想領養一隻小狗,到了收容所後,該怎麼跟承辦人員描述你想要的狗狗呢? 你可能會說:「我想要一隻可愛的小狗。」 但這樣的描述太模糊了,對方可能無法立刻理解你的偏好。
Thumbnail
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News