🗓️ iPAS AI應用規劃師初級 - Day 1 精華筆記 (小白友善版)

🎯 今日核心：搞懂兩大學習門派

監督式學習 vs. 無監督學習

AI世界有兩大門派，它們的「學習方式」完全不同。記住這個，就掌握了機器學習的根基。

➊ 監督式學習：有老師教的學生

學習資料：有「標準答案」（標籤label）
核心目標：為了「預測」與「分類classification」

生活實例：

🏠 預測房價（答案：真實的房價數字）
🐱 辨識貓狗照片（答案：這是貓還是狗）
📧 垃圾郵件過濾（答案：這是垃圾郵件還是正常郵件）

➋ 非監督式學習：自己探索的探險家

學習資料：沒有標準答案
核心目標：為了「發現」與「分群clustering」

生活實例：

👨‍👩‍👧 超市客戶分群（不知道會分成幾類，讓消費資料自己說話）
🛒 購物籃分析（發現「買了尿布的人，也常常買啤酒」的隱藏關聯）

✨ 一句話記住：有答案就「監督」，沒答案就「無(非)監督」。

🧠 五大專有名詞 & 生活情境

1. AI (人工智慧)

是什麼：讓機器能像人一樣思考、學習、決策的科技。
生活情境：你手機裡的 Siri 或 Google 助理，它能聽懂你的話並幫你做事。

2. Machine Learning (機器學習)

是什麼：實現 AI 的一種方法，讓電腦從「資料」中自己學出規則。
生活情境：Netflix 的推薦片單，系統根據你過去的觀看記錄，自動學習你的喜好。

3. Deep Learning (深度學習)

是什麼：機器學習的一個強大分支，用「多層神經網路」處理複雜資料。
生活情境：手機的臉部解鎖，透過深度學習，從你的臉部特徵中精準辨識出你。

4. Supervised Learning (監督式學習)

是什麼：用「有標準答案」的資料來訓練模型。
生活情境：垃圾郵件過濾器，你告訴系統哪些是垃圾郵件，它學會後就能自動判斷。

5. Unsupervised Learning (非/無監督式學習)

是什麼：用「沒有答案」的資料，讓模型自己發現背後的模式。
生活情境：銀行進行客戶分群，將客戶分成「理財主力」、「保守儲蓄」等不同群體，以便提供不同服務。

一句話理解👶無監督學習

無監督學習就像一個「沒有人教、自己探索」的聰明寶寶。 系統拿到一大堆「沒有標準答案」的資料，它的任務是自己從中發現隱藏的結構、模式或規則。

🫴一個核心比喻：幼兒園的積木

想像有兩種幼兒園教學法：

監督式學習（有老師教）：

老師拿著一個正方形的積木，告訴寶寶：「這是正方形。」
再拿著一個圓形的積木，告訴寶寶：「這是圓形。」
目標：讓寶寶學會後，能正確辨認出新的積木是什麼形狀。

2. 無監督學習（沒有老師，讓寶寶自己玩）：

老師把一桶混雜的積木（正方形、圓形、三角形，還有紅色、藍色、綠色）倒在寶寶面前，但不告訴他任何名稱。
讓寶寶自己玩。
聰明的寶寶可能會自己發現：

發現一：「這些積木可以按形狀分堆！」→ 於是分成了「有尖角的」一堆和「沒尖角的」一堆。
發現二：「這些積木也可以按顏色分堆！」→ 於是分成了紅、藍、綠三堆。
目標：沒有人給寶寶「形狀」或「顏色」這個標籤，是他自己探索出了資料內在的「結構」。

這個「自己玩積木、自己發現規律」的過程，就是無監督學習的精髓。

👉`無監督`學習的主要任務

集群分析clustering──任務：將資料點自動分組，使得同一組內的資料點彼此非常相似，而不同組的資料點彼此不相似。例：

客戶分群：根據消費行為，將客戶自動分成「高價值客戶」、「折扣愛好者」、「流失風險客戶」等群體，而你事先並不知道會有這幾類。
新聞分類classification：系統自動將成千上萬篇新聞文章歸類到不同的主題群組中，而無需人事先定義好主題。

2. 降維── 任務：將"高維資料" 壓縮到低維空間，同時盡可能保留重要資訊。 例：將 30,000 維的圖片資料，壓縮成 2維(2D) 或 3維(3D)來進行可視化，讓我們能「看見」資料點之間的關係。

3. 關聯規則學習──任務：在大量資料中發現「如果...那麼...」的規則。例：購物籃分析：系統分析美國沃爾瑪超市交易記錄後，發現「如果{買了尿布} →那麼 {很可能也會買啤酒}」這條著名的規則。沒有人事先告訴系統這個關聯，是系統自己發現的。

異常檢測──任務：識別出與大多數資料模式顯著不同的「異常點」或「離群點」。 例：從無數筆正常的信用卡交易中，自動標記出那些「行為模式極端異常」的交易，以供人工審查，判斷是否為詐騙。

🗺️ 「降維」地圖

當資料特徵太多（高維資料），像一團混亂的毛線球時，我們需要「降維」這把剪刀來理清頭緒。

🧭 我的`降維`決策路徑：

起點：問題是「資料太複雜」（維度的詛咒）
解決方案：核心思維是「降維」 → 第一站：問自己「目標是什麼？」

路線A：為了「分類」（例如：區分男、女客戶）我選擇：LDA。口訣：有標籤，要分類，找 LDA。
路線B：為了「探索」（例如：想看看客戶資料有沒有自然形成的小團體）

前往下一站...

→ 第二站：問自己「資料結構複雜嗎？」

路線B1：結構簡單，只想快速抓重點。 我選擇：PCA（經典快速的基本款）
路線B2：結構複雜，想看詳細分群。 我選擇：t-SNE（圖表非常漂亮）或 UMAP（功能更全面，現代首選）

^{「我們用 PCA 先過濾一下特徵。」「這個用 t-SNE 或 UMAP 畫出來應該很漂亮。」}^{我要降維（PCA/LDA）}^{？還是}^{我要看圖（t-SNE/UMAP）}^{？以及}^{我的數據有沒有標籤（LDA）}^？

✨記住 PCA,LDA,t-SNE（t神內）,UMAP 這四個縮寫至關重要。🫴P 找方向、L 分班級、t 黏鄰居、U 畫地圖

^{🔹PCA──P排隊 C找方向 A平均來：找「最大變化方向」➡ 最規矩、最線性。像排隊找“最直的隊伍方向” > 大家排成一條最好走的直線。 🔹LDA──L類別 D最遠 A最好分}^{：有標籤，讓群組之間更分開。像老師把學生分成“最不會打架的座位表” > 讓 A 班與 B 班坐得最遠最清楚。 🔹t-SNE──「t神內（t-SNE）」把近的黏在一起：專門讓「附近的點更像鄰居」➡ 看群集圖最美。像磁鐵，把本來就很近的同學「黏成小團體」> 很擅長看可愛的“散點群”。 🔹UMAP──U宇宙地圖 MAP（畫地圖）：保留「局部＋整體」結構，速度快、效果穩。像 Google 地圖 > 不只小巷弄（局部）清楚，大道路（整體）也保留住。}

✨降維 vs. 視覺化：

降維 (Dimension Reduction)： PCA 和 LDA 的主要目標是減少特徵數量，讓模型訓練更快、更有效。PCA / LDA── 為訓練模型做準備。
視覺化 (Visualization)： t-SNE 和 UMAP 的主要目標是將高維數據投射到 2D/3D，讓人眼能看懂數據的結構。t-SNE / UMAP ── 為人類理解做準備。

✨四大降維方法：

一、線性方法

主成分分析(PCA) Principal Component Analysis ── 這是最經典、最常用的無監督降維方法。它的目標是找到數據變異最大的方向，用少數的「主成分」來代表原始數據的大部分資訊。🫴「變異variance」老大，找數據中最重要的軸。主要目的：降維，去除冗餘信息(去噪)。
線性判別分析(LDA) Linear Discriminant Analysis ──這是一種有監督的降維方法。它的目標是找到一個新軸，能讓不同類別的數據分得最開（類別間距離最大），同時讓同一類別的數據最集中（類別內距離最小）。🫴專為「分類classification」服務，要標籤的監督降維。主要目的：降維，分類前優化。

二、非線性方法（常用於可視化）

t-分佈隨機鄰居嵌入(t-SNE) t-distributed Stochastic Neighbor Embedding ── t-SNE 非常擅長可視化複雜的高維數據，能將相似的數據點在二維或三維圖上緊密地聚集cluster ing在一起，形成清晰的集群。圖形非常漂亮，但計算速度較慢。🫴視覺化局部之王，慢但分得最清楚。主要目的：視覺化，展現局部結構。
均勻流形逼近與投影(UMAP) Uniform Manifold Approximation and Projection ──UMAP 被視為 t-SNE 的強大競爭者，它能保留數據的局部+全局結構，且計算速度更快，是目前非常受歡迎的現代方法。🫴視覺化全局Global利器，快且能兼具整體結構。主要目的：視覺化，比 t-SNE 更快。

💡 模考題心法 (初級重點)

題目出現「預測、分類、有標準答案」→ 優先想「監督式學習」。
題目出現「分群、發現模式、沒有答案」→ 優先想「非監督式學習」。
題目出現「圖片、語音、文字辨識」→ 可以聯想到「深度學習」。
遇到降維考題，先問目標是「分類」還是「探索」，再選方法。

🎉 Day 1 今天我學了

AI、機器學習、深度學習的關係。
監督式 vs. 非監督式學習的根本區別。
何時該用哪種降維方法的基本邏輯。