
🎯 今日核心:搞懂兩大學習門派
監督式學習 vs. 無監督學習
AI世界有兩大門派,它們的「學習方式」完全不同。記住這個,就掌握了機器學習的根基。
➊ 監督式學習:有老師教的學生
- 學習資料:
有「標準答案」(標籤label) - 核心目標:
為了「預測」與「分類classification」
生活實例:
- 🏠 預測房價(答案:真實的房價數字)
- 🐱 辨識貓狗照片(答案:這是貓還是狗)
- 📧 垃圾郵件過濾(答案:這是垃圾郵件還是正常郵件)
➋ 非監督式學習:自己探索的探險家
- 學習資料:
沒有標準答案 - 核心目標:
為了「發現」與「分群clustering」
- 👨👩👧 超市客戶分群(不知道會分成幾類,讓消費資料自己說話)
- 🛒 購物籃分析(發現「買了尿布的人,也常常買啤酒」的隱藏關聯)
✨ 一句話記住:有答案就「監督」,沒答案就「 無(非)監督」。
🧠 五大專有名詞 & 生活情境
1. AI (人工智慧)
- 是什麼:
讓機器能像人一樣思考、學習、決策的科技。 - 生活情境:你手機裡的 Siri 或 Google 助理,它能聽懂你的話並幫你做事。
2. Machine Learning (機器學習)
- 是什麼:
實現 AI 的一種方法,讓電腦從「資料」中自己學出規則。 - 生活情境:Netflix 的推薦片單,系統根據你過去的觀看記錄,自動學習你的喜好。
3. Deep Learning (深度學習)
- 是什麼:
機器學習的一個強大分支,用「多層神經網路」處理複雜資料。 - 生活情境:手機的臉部解鎖,透過深度學習,從你的臉部特徵中精準辨識出你。
4. Supervised Learning (監督式學習)
- 是什麼:
用「有標準答案」的資料來訓練模型。 - 生活情境:垃圾郵件過濾器,你告訴系統哪些是垃圾郵件,它學會後就能自動判斷。
5. Unsupervised Learning (非/無監督式學習)
- 是什麼:
用「沒有答案」的資料,讓模型自己發現背後的模式。 - 生活情境:銀行進行客戶分群,將客戶分成「理財主力」、「保守儲蓄」等不同群體,以便提供不同服務。
一句話理解👶無監督學習
無監督學習就像一個「沒有人教、自己探索」的聰明寶寶。 系統拿到一大堆「沒有標準答案」的資料,它的任務是自己從中發現隱藏的結構、模式或規則。
🫴一個核心比喻:幼兒園的積木
想像有兩種幼兒園教學法:

- 監督式學習(有老師教):
- 老師拿著一個正方形的積木,告訴寶寶:「這是正方形。」
- 再拿著一個圓形的積木,告訴寶寶:「這是圓形。」
- 目標:讓寶寶學會後,能正確辨認出新的積木是什麼形狀。
2. 無監督學習(沒有老師,讓寶寶自己玩):
- 老師把一桶混雜的積木(正方形、圓形、三角形,還有紅色、藍色、綠色)倒在寶寶面前,但不告訴他任何名稱。
- 讓寶寶自己玩。
- 聰明的寶寶可能會自己發現:
- 發現一:「這些積木可以按形狀分堆!」→ 於是分成了「有尖角的」一堆和「沒尖角的」一堆。
- 發現二:「這些積木也可以按顏色分堆!」→ 於是分成了紅、藍、綠三堆。
- 目標:沒有人給寶寶「形狀」或「顏色」這個標籤,是他自己探索出了資料內在的「結構」。
這個「自己玩積木、自己發現規律」的過程,就是無監督學習的精髓。
👉無監督學習的主要任務
- 集群分析
clustering──任務:將資料點自動分組,使得同一組內的資料點彼此非常相似,而不同組的資料點彼此不相似。例:
- 客戶分群:根據消費行為,將客戶自動分成「高價值客戶」、「折扣愛好者」、「流失風險客戶」等群體,而你事先並不知道會有這幾類。
- 新聞分類
classification:系統自動將成千上萬篇新聞文章歸類到不同的主題群組中,而無需人事先定義好主題。
2. 降維── 任務:將"高維資料" 壓縮到低維空間,同時盡可能保留重要資訊。 例:將 30,000 維的圖片資料,壓縮成 2維(2D) 或 3維(3D)來進行可視化,讓我們能「看見」資料點之間的關係。
3. 關聯規則學習──任務:在大量資料中發現「如果...那麼...」的規則。 例:購物籃分析:系統分析美國沃爾瑪超市交易記錄後,發現「如果{買了尿布} →那麼 {很可能也會買啤酒}」這條著名的規則。沒有人事先告訴系統這個關聯,是系統自己發現的。
- 異常檢測──任務:
識別出與大多數資料模式顯著不同的「異常點」或「離群點」。例:從無數筆正常的信用卡交易中,自動標記出那些「行為模式極端異常」的交易,以供人工審查,判斷是否為詐騙。
🗺️ 「降維」地圖
當資料特徵太多(高維資料),像一團混亂的毛線球時,我們需要「降維」這把剪刀來理清頭緒。
🧭 我的降維決策路徑:
- 起點:問題是
「資料太複雜」(維度的詛咒) - 解決方案:
核心思維是「降維」→ 第一站:問自己「目標是什麼?」
- 路線A:
為了「分類」(例如:區分男、女客戶)我選擇:LDA。 口訣:有標籤,要分類,找 LDA。 - 路線B:
為了「探索」(例如:想看看客戶資料有沒有自然形成的小團體)
前往下一站...
→ 第二站:問自己「資料結構複雜嗎?」
- 路線B1:
結構簡單,只想快速抓重點。我選擇:PCA(經典快速的基本款) - 路線B2:
結構複雜,想看詳細分群。我選擇:t-SNE(圖表非常漂亮)或UMAP(功能更全面,現代首選)

「我們用 PCA 先過濾一下特徵。」 「這個用 t-SNE 或 UMAP 畫出來應該很漂亮。」 我要降維(PCA/LDA) ? 還是 我要看圖(t-SNE/UMAP)? 以及 我的數據有沒有標籤(LDA)?
✨記住 PCA,LDA,t-SNE(t神內),UMAP 這四個縮寫至關重要。🫴P 找方向、L 分班級、t 黏鄰居、U 畫地圖

🔹PCA──P排隊 C找方向 A平均來:找「最大變化方向」➡ 最規矩、最線性。像排隊找“最直的隊伍方向” > 大家排成一條最好走的直線。 🔹LDA──L類別 D最遠 A最好分 :有標籤,讓群組之間更分開。像老師把學生分成“最不會打架的座位表” > 讓 A 班與 B 班坐得最遠最清楚。 🔹t-SNE──「t神內(t-SNE)」把近的黏在一起:專門讓「附近的點更像鄰居」➡ 看群集圖最美。 像磁鐵,把本來就很近的同學「黏成小團體」> 很擅長看可愛的“散點群”。 🔹UMAP──U宇宙地圖 MAP(畫地圖):保留「局部+整體」結構,速度快、效果穩。像 Google 地圖 > 不只小巷弄(局部)清楚,大道路(整體)也保留住。
✨降維 vs. 視覺化:
- 降維 (Dimension Reduction): PCA 和 LDA 的主要目標是
減少特徵數量,讓模型訓練更快、更有效。PCA / LDA── 為訓練模型做準備。 - 視覺化 (Visualization): t-SNE 和 UMAP 的主要目標是
將高維數據投射到 2D/3D,讓人眼能看懂數據的結構。t-SNE / UMAP ── 為人類理解做準備。
✨四大降維方法:
一、線性方法
- 主成分分析(PCA) Principal Component Analysis ── 這是
最經典、最常用的無監督降維方法。它的目標是找到數據變異最大的方向,用少數的「主成分」來代表原始數據的大部分資訊。🫴「變異variance」老大,找數據中最重要的軸。主要目的:降維,去除冗餘信息(去噪)。 - 線性判別分析(LDA) Linear Discriminant Analysis ──這是一種
有監督的降維方法。它的目標是找到一個新軸,能讓不同類別的數據分得最開(類別間距離最大),同時讓同一類別的數據最集中(類別內距離最小)。🫴專為「分類classification」服務,要標籤的監督降維。主要目的:降維,分類前優化。
二、非線性方法(常用於可視化)
- t-分佈隨機鄰居嵌入(t-SNE) t-distributed Stochastic Neighbor Embedding ── t-SNE
非常擅長可視化複雜的高維數據,能將相似的數據點在二維或三維圖上緊密地聚集cluster ing在一起,形成清晰的集群。圖形非常漂亮,但計算速度較慢。🫴視覺化局部之王,慢但分得最清楚。主要目的:視覺化,展現局部結構。 - 均勻流形逼近與投影(UMAP) Uniform Manifold Approximation and Projection ──UMAP 被視為 t-SNE 的強大競爭者,它能
保留數據的局部+全局結構,且計算速度更快,是目前非常受歡迎的現代方法。🫴視覺化全局Global利器,快且能兼具整體結構。主要目的:視覺化,比 t-SNE 更快。
💡 模考題心法 (初級重點)
- 題目出現「
預測、分類、有標準答案」→ 優先想 「監督式學習」。 - 題目出現「
分群、發現模式、沒有答案」→ 優先想 「非監督式學習」。 - 題目出現「
圖片、語音、文字辨識」→ 可以聯想到 「深度學習」。 - 遇到降維考題,
先問目標是「分類」還是「探索」,再選方法。
🎉 Day 1 今天我學了
- AI、機器學習、深度學習的關係。
- 監督式 vs. 非監督式學習的根本區別。
- 何時該用哪種降維方法的基本邏輯。
