《從零開始的資料科學筆記》Day#11:機器學習概述

Ethan伊森

發佈於《從零開始的資料科學筆記》

2025/07/05 更新2025/07/05 發佈閱讀 5 分鐘

🔍 為什麼要學機器學習？

在這個資料驅動的時代，從圖像辨識、語音助手到金融風險預測，都離不開機器學習。透過「從資料中自動學習規則」的能力，機器學習幫助我們：

自動化決策流程（例如：信貸核准）
從龐大資料中發現趨勢與模式（例如：顧客行為分析）
增強傳統演算法的適應力與預測能力

🤔 機器學習是什麼？

機器學習（Machine Learning, ML）是一門讓電腦不需明確編程即可從數據中學習與預測的技術。

它與傳統程式的差異：

💡 人工智慧（AI）發展簡史

人工智慧的發展最早可追朔到1950年代，Alan Turing提出有名的"圖靈測試"，目的是要測試能否透過對話來分辨回答者是機器還是人類。當時的技術主要是以簡單"邏輯導向"來驅使機器。

到了1980年代則開始以"規則導向"為主，也就是結合領域知識的專家系統，此時的人工智慧系統由於融入許多專家知識與經驗所整合出的判斷規則，因此預測能力遠大於早期的邏輯導向技術。

目前很熱門的"神經網路技術"早在1980年代就出現了，只是當時電腦運算能力不佳，導致空有技術但無法實際應用，因此被埋沒很長一段時間。隨著電腦運算能力的不斷提升，到了2010年代神經網路技術終於開始嶄露頭角，這種以神經網路為基礎，從資料中自動學習的技術逐漸遍地開花。時至今日，熱門的AI技術仍然以神經網路為主，也稱為"深度學習"。

人工智慧技術發展

🧭 機器學習的三大類型

1️⃣ 監督式學習（Supervised Learning）

定義：有「標記過」的資料（有正確答案），模型學習輸入到輸出的映射關係。

應用：

分類（Classification）：判斷圖片中的物體是貓還是狗。
迴歸（Regression）：根據地段、坪數預測房價。

2️⃣ 非監督式學習（Unsupervised Learning）

定義：資料沒有標籤，模型學習資料的內部結構與分群邏輯。

應用：

群聚分析（Clustering）：找出顧客分群、辨別相似族群
維度縮減（Dimensionality Reduction）：資料視覺化（例如 PCA）

3️⃣ 強化學習（Reinforcement Learning）

定義：透過不斷地試錯學習，讓模型在環境中獲得「獎勵」以學習最佳策略，與人類的學習方式最相近。

應用：

機器人學投籃、自駕車
圍棋、Atari 遊戲對戰

⚠️ 本文主要專注在監督式與非監督式學習。

📌 機器學習應用場景與代表任務

📂 常見開源資料集簡介

🧰 常用套件介紹

機器學習流程（Workflow）

0. ❓問題定義 (Task Definition)

思考想解決的問題
再定義成機器學習任務

1. 📥 資料收集（Data Collection）

來源：CSV 檔、資料庫、API、感測器、開源資料集

📚工具：pandas、SQL、requests、kaggle API

2. 🧹 資料前處理（Data Preprocessing）

處理缺失值、異常值
數值/類別欄位轉換
去除重複值、標準化欄位名稱

📚 工具：pandas、numpy、matplotlib

3. 🏗️ 特徵工程（Feature Engineering）

特徵選擇 / 創造新特徵
One-hot 編碼、標準化、數值分箱
降維（PCA）或統計摘要

4. 🧠 模型訓練（Model Training）

將處理好的資料分為訓練集與測試集
選擇適合的演算法訓練模型（ex: 決策樹、邏輯回歸）

5. 📏 模型評估（Model Evaluation）

用評估指標判斷模型好壞
常見指標：Accuracy, Precision, Recall, F1-score, RMSE

6. 🛠️ 調參與優化（Hyperparameter Tuning）

使用 Grid Search、Random Search、交叉驗證
提升模型泛化能力與效能

7. 🌐 模型部署（Deployment）

將訓練好的模型部屬於伺服器或 Web API

8. 🚀 模型推論 (Inference)

將要預測的新資料丟入已部署好的模型中運算並得到結果

Ethan的AI學習筆記《從零開始的資料科學筆記》

留言

Ethan的AI學習筆記

9會員

33內容數

我是一個不務正業的資料科學家，從零開始學習的路途上跌跌撞撞，跌過許多坑，也撞過許多牆... 當有人迷失方向時，希望這些筆記可以成為你的指南針。

Ethan的AI學習筆記的其他內容

2025/06/27

《從零開始的資料科學筆記》Day#10:模型挑選、訓練與推論

在輔導學員的時候遇過很多初學者會搞不清楚到底模型是什麼?訓練又是怎麼一回事? 因此這篇文章主要是提供初學者一些簡單的概念，知道”模型”和”訓練”是在做什麼，不涉及程式碼撰寫與執行。希望藉由簡單的說明讓大家可以先了解這些基本概念，可以加快後續實際操作上手的時間。

2025/06/27

《從零開始的資料科學筆記》Day#10:模型挑選、訓練與推論

2025/06/23

《從零開始的資料科學筆記》Day#9: 特徵工程

🙋‍♀️ 什麼是特徵（Feature）？想像一個情境：你想領養一隻小狗，到了收容所後，該怎麼跟承辦人員描述你想要的狗狗呢？你可能會說：「我想要一隻可愛的小狗。」但這樣的描述太模糊了，對方可能無法立刻理解你的偏好。

2025/06/23

《從零開始的資料科學筆記》Day#9: 特徵工程

2025/06/18

《從零開始的資料科學筆記》Day#8:資料前處理入門

好不容易學習完資料科學三大基礎套件(NumPy / Pandas / Matplotlib)之後，就可以開始學習什麼是資料前處理(Data Preprocessing)、為什麼要做?、以及怎麼做?

2025/06/18

《從零開始的資料科學筆記》Day#8:資料前處理入門

好不容易學習完資料科學三大基礎套件(NumPy / Pandas / Matplotlib)之後，就可以開始學習什麼是資料前處理(Data Preprocessing)、為什麼要做?、以及怎麼做?

看更多

你可能也想看

莎姐的矽谷茶棧

你開始使用AI了嗎？

最新的AI趨勢讓人眼花撩亂，不知要如何開始學習？本文介紹了作者對AI的使用和體驗，以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具，可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心，不停止學習，並提出了對健康生活和開心生活的祝福。

2024/06/14

2024/06/14

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

#ChatGPT#AlphaGo#人工智慧

2024/07/19

Darren的沙龍

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

本文談及資料科學的領域與分工。首先是建造一個AI的研發流程，資料收集到 AI 模型訓練的過程，AI經歷這一切流程被創造出來並產生價值；再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。

#人工智慧#AI#資料科學

2024/07/05

Darren的沙龍

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

#人工智慧#AI#資料科學

2024/07/05

米奇幻世界

AI基本認識

AI，全稱人工智慧，是指讓電腦或機器具備類似人類的智慧和能力的科學和技術。AI 可以幫助我們解決各種問題，提高效率，創造價值，甚至改變世界。但是，你知道 AI 是如何運作的嗎？你知道 AI 的歷史和未來嗎？你知道 AI 的優點和挑戰嗎？在這篇文章中，我將帶你一起認識 AI 的基本概念和發展。

2024/03/08

2024/03/08

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

#AI#ML#人工智能

2024/07/26

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

#AI#ML#人工智能

2024/07/26

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28