今天的「人工智慧 +1」自學要學的是「不是監督式教學」:非監督式學習 (Unsupervised Learning)
1. 「非監督式學習 (Unsupervised Learning)」
▹核心概念:▪︎ 提供大量未標記的數據讓模型透過數學演算法,發現隱藏的結構、模式和關係,自行找出數據中的內在模式。
▪︎ 模型的角色是高效的「相似性計算器」和「歸類器」。
▹潛在挑戰:非監督式學習的結果往往無法「直接驗證正確性」。
2. 與監督式學習(Supervised Learning)的異同
▹相同:
都是在訓練「歸納 (Induction)」的能力。歸納能力正是機器學習的核心本質。無論是監督式或非監督式學習,其最終目標都是讓模型學習從「部分」歸納出適用「所有數據」的普遍模式或規則。
▪︎ 監督式學習:學習「歸納」有標籤數據中的模式。
▪︎ 非監督式學習: 學習「歸納」無標籤數據中的內在結構和潛在模式。
▹相異:
▪︎ 監督式學習:
(a)定義:讓模型學習「已定義」的規則,訓練自己按照規則對數據進行分類 (Classification)。
(b)資料:有標籤
(c)學習目標:學習「輸入-輸出」的映射關係
(d)訓練結果:可驗證正確性
▪︎ 非監督式學習:
(a)定義:讓模型自行在數據中尋找並定義規則(i.e.歸納的邏輯),然後再對數據進行分群 (Clustering)。
(b)資料:無標籤
(c)學習目標:尋找數據中的隱藏模式或結構
(d)訓練結果:無法直接驗證正確性
3. 常見應用
A.分群 (Clustering)
▹說明:
尋找數據點之間的共同特徵,根據數據點之間的相似性,將它們歸類到不同的「群組」中。沒有事先定義好的分類規則,也沒有事先定義好的類別(所以是「群」),由演算法自行找出、自行決定。
▹使用演算法:
▪︎ K-Means:迭代地尋找群組的中心點,並將數據點分配給最近的中心點**,其優化目標是最小化數據點到其所屬群組中心點的距離,而非最小化誤差。
(**註:中心點的數量即「群」的數量,會預先設定好。)
▪︎ 階層式分群 (Hierarchical Clustering):以巢狀式或樹狀結構進行分群。有兩種做法:
(1)凝聚式 (Agglomerative):每個數據點都自成一群,然後逐步將最相似的群組合併,直到所有數據點都屬於一個群組。
(2)分裂式 (Divisive): 從一個包含所有數據點的大群組開始,然後逐步將群組分裂為越來越小的子群組。
▹應用案例:
生物物種分類樹(階層式分群);根據消費者購買行為/瀏覽習慣分群以進行精準行銷(K-Means)。
B.降維 (Dimensionality Reduction)
▹說明:數據龐雜,會夾帶許多特徵可能是多餘或不相關的數據。降維技術能減少數據的特徵數量,同時盡可能保留最重要的資訊。這有助於簡化模型、減少計算時間並提高準確性。
▹使用演算法:
▪︎ 主成分分析 PCA(Principal Component Analysis):藉由數學轉換,將高維度的數據以低維度結構檢視(維度指「數據所擁有的特徵數量」),找出其中最重要的特徵維度,也就是能夠保留最大數據資訊量(i.e.最多數據變異量)的新特徵維度。
▪︎ t-SNE (t-distributed Stochastic Neighbor Embedding):主要用於視覺化,將高維度數據降到 2D 或 3D,以視覺化數據的結構和分佈。
▹應用案例:
從圖片中找出最能代表其內容的數個像素特徵(PCA);從一段音檔中提取主要頻率特徵(PCA);探索性數據分析/EDA (Exploratory Data Analysis),將大量的圖像或文本數據視覺化以找尋潛在模式(t-SNE)。
C.關聯規則學習 (Association Rule Learning)
▹說明:在數據集中,找出不同項目之間的關聯性。
▹使用演算法:
▪︎ Apriori 演算法:找出數據集中經常一起出現的項目組合,並計算其支持度(Support)和置信度(Confidence)。
▹應用案例:
「啤酒與尿布」案例。透過分析顧客的購買數據,發現購買尿布的顧客也經常購買啤酒,這是一種無標籤數據中發現的隱藏模式。
D.生成式模型 (Generative Models)
▹說明:學習數據的底層「分佈」,並能夠生成出與原始數據相似的新數據。這是非常重要的應用。
▹應用案例:
訓練模型學習所有狗的圖片,然後再生成新的、不存在的狗的圖片。
(**註:生成式模型使用演算法很多,擬不在此提出。)

演算法&非監督式學習彙整