
🔍 為什麼要學機器學習?
在這個資料驅動的時代,從圖像辨識、語音助手到金融風險預測,都離不開機器學習。 透過「從資料中自動學習規則」的能力,機器學習幫助我們:
- 自動化決策流程(例如:信貸核准)
- 從龐大資料中發現趨勢與模式(例如:顧客行為分析)
- 增強傳統演算法的適應力與預測能力
🤔 機器學習是什麼?
機器學習(Machine Learning, ML)是一門讓電腦不需明確編程即可從數據中學習與預測的技術。
它與傳統程式的差異:

💡 人工智慧(AI)發展簡史
人工智慧的發展最早可追朔到1950年代,Alan Turing提出有名的"圖靈測試",目的是要測試能否透過對話來分辨回答者是機器還是人類。當時的技術主要是以簡單"邏輯導向"來驅使機器。
到了1980年代則開始以"規則導向"為主,也就是結合領域知識的專家系統,此時的人工智慧系統由於融入許多專家知識與經驗所整合出的判斷規則,因此預測能力遠大於早期的邏輯導向技術。
目前很熱門的"神經網路技術"早在1980年代就出現了,只是當時電腦運算能力不佳,導致空有技術但無法實際應用,因此被埋沒很長一段時間。 隨著電腦運算能力的不斷提升,到了2010年代神經網路技術終於開始嶄露頭角,這種以神經網路為基礎,從資料中自動學習的技術逐漸遍地開花。時至今日,熱門的AI技術仍然以神經網路為主,也稱為"深度學習"。


人工智慧技術發展

🧭 機器學習的三大類型
1️⃣ 監督式學習(Supervised Learning)
定義:有「標記過」的資料(有正確答案),模型學習輸入到輸出的映射關係。

應用:
- 分類(Classification):判斷圖片中的物體是貓還是狗。
- 迴歸(Regression):根據地段、坪數預測房價。

2️⃣ 非監督式學習(Unsupervised Learning)
定義:資料沒有標籤,模型學習資料的內部結構與分群邏輯。

應用:
- 群聚分析(Clustering):找出顧客分群、辨別相似族群
- 維度縮減(Dimensionality Reduction):資料視覺化(例如 PCA)

3️⃣ 強化學習(Reinforcement Learning)
定義:透過不斷地試錯學習,讓模型在環境中獲得「獎勵」以學習最佳策略,與人類的學習方式最相近。

應用:
- 機器人學投籃、自駕車
- 圍棋、Atari 遊戲對戰

⚠️ 本文主要專注在 監督式與非監督式學習。
📌 機器學習應用場景與代表任務

📂 常見開源資料集簡介

🧰 常用套件介紹

機器學習流程(Workflow)
0. ❓問題定義 (Task Definition)
- 思考想解決的問題
- 再定義成機器學習任務
1. 📥 資料收集(Data Collection)
- 來源:CSV 檔、資料庫、API、感測器、開源資料集
📚工具:pandas、SQL、requests、kaggle API
2. 🧹 資料前處理(Data Preprocessing)
- 處理缺失值、異常值
- 數值/類別欄位轉換
- 去除重複值、標準化欄位名稱
📚 工具:pandas、numpy、matplotlib
3. 🏗️ 特徵工程(Feature Engineering)
- 特徵選擇 / 創造新特徵
- One-hot 編碼、標準化、數值分箱
- 降維(PCA)或統計摘要
4. 🧠 模型訓練(Model Training)
- 將處理好的資料分為訓練集與測試集
- 選擇適合的演算法訓練模型(ex: 決策樹、邏輯回歸)
5. 📏 模型評估(Model Evaluation)
- 用評估指標判斷模型好壞
- 常見指標:Accuracy, Precision, Recall, F1-score, RMSE
6. 🛠️ 調參與優化(Hyperparameter Tuning)
- 使用 Grid Search、Random Search、交叉驗證
- 提升模型泛化能力與效能
7. 🌐 模型部署(Deployment)
- 將訓練好的模型部屬於伺服器或 Web API
8. 🚀 模型推論 (Inference)
- 將要預測的新資料丟入已部署好的模型中運算並得到結果