機器學習(下集)非監督式學習筆記:分群、關聯分析與降維

更新 發佈閱讀 7 分鐘

接續上集監督式學習的觀念,本篇筆記紀錄非監督式學習的常見名詞和概念。

以下圖片截圖自 All Machine Learning algorithms explained in 17 min

2. 非監督式學習 (Unsupervised Learning)

2.1 分群 (Clustering)

分群Cluster 和分類 Classification 是兩個容易混淆的概念,分類是監督式學習,我們已經有已知兩類的資料特徵(例如:貓和狗)。

左圖的資料有標籤,右圖沒有。

左圖的資料有標籤,右圖沒有。

但在不清楚分類的情況底下,有可能會分成許多類別。有一個方法--K-means 可以做分類

K-Means:聚類演算法,用於將資料分為 K 個群組

  1. 初始化中心點(Centroids): 隨機選取 K 個點 (譬如3點) 作為初始中心點,這些點代表每個群組的中心。
  2. 分配資料點到最近的中心點: 計算每個資料點與所有中心點之間的距離,將該點分配到最近的中心點所屬的群組。
  3. 更新中心點: 將每個群組內的所有資料點的平均值計算出來,並將其設為新的中心點。
  4. 重複分配與更新: 重複步驟 2 和 3,直到中心點位置不再變化(或變化小於設定的閾值),即達到收斂。
  5. 結果輸出: 所有資料點被分配到 K 個群組中,每個群組有一個最終的中心點。

適用場景

  1. 顧客分群: 例如,根據購買行為將顧客分為「高價值顧客」、「潛在顧客」和「低價值顧客」。
  2. 影像分割: 將影像中的像素分為不同群組,進行目標識別或背景分離。
  3. 文件分類: 依據文件的內容相似性分群,用於文本挖掘。
  4. 醫學研究: 分析患者的症狀或基因特徵,將患者分為不同的亞群以進行診斷或治療。

影片參考:【机器学习】聚类和K-means算法

2.2 關聯分析 (Association)

「關聯規則」(Association Rules),例如超市購物籃分析(Market Basket Analysis)。其核心在於找出不同物品之間的關聯性,回答「如果客戶買了商品 A,是否會同時購買商品 B」。分析結果可能會買奶油的人會傾向買蛋,所以在奶油區廣告蛋的特價會有效果。

常見演算法:Apriori

  • Support(支持度): 表示特定項目組合出現在資料集中的頻率。
raw-image


  • Confidence(置信度): 表示在已購買 A 的情況下,同時購買 B 的可能性。
raw-image
  • Lift(提升度): 衡量規則的強度,值越大表示 A 與 B 的關聯越強。
raw-image

舉個簡單的 Apriori 演算法例子:

1. 資料準備

假設我們有以下交易數據(購物籃):

  • 交易 1: {牛奶, 麵包, 起司}
  • 交易 2: {牛奶, 麵包}
  • 交易 3: {奶油, 麵包}
  • 交易 4: {牛奶, 起司}
  • 交易 5: {牛奶, 麵包, 起司}

2. 篩選重要項目

在篩選時,通常會設置一個門檻,例如**支援度(Support)信賴度(Confidence)**的最低值,來排除不重要的規則。舉例來說:

  • 支援度計算:每個項目的出現比例,例如「牛奶 -> 麵包」的支援度是 60%,因為在 5 筆交易中,有 3 筆同時包含「牛奶」和「麵包」。
  • 信賴度計算:在包含「牛奶」的交易中,有多少比例同時包含「麵包」。例如,信賴度是 3/4=75%。

3. 篩選規則的應用

當我們發現規則「牛奶 -> 麵包」的支援度和信賴度足夠高,則可以進一步分析:

  • 促銷建議:如果顧客買了牛奶,建議一起購買麵包。
  • 陳列策略:將牛奶與麵包放在相近的貨架上。

4. 處理多項目組合

如果購物籃中有多個項目(如 a、b、c、d),我們可以用關聯分析找出例如:

  • 單一關聯:「a -> b」
  • 多重關聯:「a, b -> c」

例如:

  • 「牛奶, 麵包 -> 起司」表示顧客買了牛奶和麵包時,有很高機率會買起司。
  • Lift(提升度)可幫助確定這些關聯是否比隨機出現更有意義。

我請 ChatGPT 幫我生成關聯圖,透過 Lift 的程度就可以判斷多項產品組合的關係。

raw-image

2.3 降維 (Dimensionality Reduction)

降維是一種將高維資料投影到低維空間的技術,用於減少資料的複雜度,同時保留重要資訊。它主要應用於資料可視化和降噪,常用的方法有 PCAt-SNE

什麼是維度?

  1. 數據的特徵數量
    • 每個「維度」代表一個數據特徵。例如,若我們分析「年齡」和「收入」,這是2個維度。通常是表格的每個欄表頭。
    • 假設我們增加更多特徵(如教育背景、消費習慣等),這些特徵都會成為額外的維度。
  2. 幾何空間的表示
    • 在2維空間,我們可以用X和Y軸描繪數據點;在3維空間,則加入Z軸。
    • 若超過3維,我們無法直接視覺化,但數學上可以表示為多維空間。
  3. 為何需要降維?
    • 當維度太多(高維度),分析會變得複雜,並可能產生「維度詛咒」(資料稀疏,模型效果變差)。PCA 就是一種有效的降維方法。

PCA (Principal Component Analysis) 核心概念

PCA 主要目的是:

  • 壓縮數據維度,但仍保留大部分數據的變異(資訊量)。
  • 找出資料中「影響最大的方向」(主成分),以減少維度。會考慮1. 最大可分性 (投影到平面的時候盡量分開) 2. 最近重構性,樣品投影到平面要盡量小,如紅色虛線的距離加總要盡量小。
raw-image


步驟:

  1. 標準化資料(讓每個特徵的均值為 0,方差為 1)。也需要做去中心化,讓中心平移到原點
  2. 計算資料的共變異矩陣,了解變數之間的關聯。
  3. 找出共變異矩陣的特徵值與特徵向量。
  4. 選取解釋變異最多的特徵向量,作為主成分。

如何找到

raw-image


應用場景:

  • 降維以加速模型運行。
  • 去除資料中的噪音,保留核心資訊。
  • 資料可視化:將高維度資料壓縮到 2D 或 3D。


  • t-SNE:如何用於高維資料的可視化。(待補充)

3. 強化學習 (Reinforcement Learning)

3.1 核心概念

  • 強化學習與監督式學習的區別:回饋機制 (Reward Mechanism)。
  • 沒有固定的「標籤」,而是透過試錯學習如何達成目標。
  • 系統根據行動結果(環境的回饋)得到獎勵或懲罰,目的是最大化獎勵。
  • 例子:
    • 下棋,AI 嘗試不同策略,根據勝負獲得分數獎勵。
    • 自駕車、機器人導航
留言
avatar-img
越南放大鏡 X 下班資工系
60會員
108內容數
雙重身份:越南放大鏡 X 下班資工系 政大東南亞語言學系是我接觸越南語的起點,畢業後找越南外派工作的生活跟資訊時,發現幾乎都是清單式的分享,很難身歷其境。所以我希望「越南放大鏡」可以帶讀者看到更多細節和深入的觀察。 - 下班資工系則是自學資工系的課程內容,記錄實際操作的過程,學習理論的過程。希望可以跟讀者一起成長。
2025/04/24
本系列文章將循序漸進地介紹 JavaScript 的核心概念,從基礎語法到進階應用,例如非同步程式設計和 React 基礎。內容淺顯易懂,並使用生活化的比喻幫助讀者理解,搭配程式碼範例,適合 JavaScript 初學者學習。
Thumbnail
2025/04/24
本系列文章將循序漸進地介紹 JavaScript 的核心概念,從基礎語法到進階應用,例如非同步程式設計和 React 基礎。內容淺顯易懂,並使用生活化的比喻幫助讀者理解,搭配程式碼範例,適合 JavaScript 初學者學習。
Thumbnail
2025/04/21
本文介紹行動通訊網路的演進歷史,從1G到5G,並說明ITU與3GPP在制定通訊規格上的重要角色,以及5G的三大關鍵應用場景:URLLC、eMBB和mMTC。
Thumbnail
2025/04/21
本文介紹行動通訊網路的演進歷史,從1G到5G,並說明ITU與3GPP在制定通訊規格上的重要角色,以及5G的三大關鍵應用場景:URLLC、eMBB和mMTC。
Thumbnail
2025/04/11
這篇文章說明網路的七層模型、IP 位址、通訊埠、TCP/UDP 協定、HTTP 協定、HTTP 狀態碼以及 WebSocket,並解釋它們之間的關係與互動方式。文中包含許多圖表和範例,幫助讀者理解這些網路概念。
Thumbnail
2025/04/11
這篇文章說明網路的七層模型、IP 位址、通訊埠、TCP/UDP 協定、HTTP 協定、HTTP 狀態碼以及 WebSocket,並解釋它們之間的關係與互動方式。文中包含許多圖表和範例,幫助讀者理解這些網路概念。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
本篇筆記介紹非監督式學習的三大類別:分群、關聯分析和降維,並深入說明其概念、演算法和應用場景。包含K-Means分群演算法、Apriori關聯分析演算法、PCA降維技術,以及強化學習的基礎概念。
Thumbnail
本篇筆記介紹非監督式學習的三大類別:分群、關聯分析和降維,並深入說明其概念、演算法和應用場景。包含K-Means分群演算法、Apriori關聯分析演算法、PCA降維技術,以及強化學習的基礎概念。
Thumbnail
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
Thumbnail
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
Thumbnail
Hi,你好。我是茶桁。 我们在机器学习入门已经学习了两节课,分别接触了动态规划,机器学习的背景,特征向量以及梯度下降。 本节课,我们在深入的学习一点其他的知识,我们来看看K-means. 当然,在本节课我们也只是浅尝即止,关于这些内容,后面我们还有更详细的内容等着我们去深入学习。
Thumbnail
Hi,你好。我是茶桁。 我们在机器学习入门已经学习了两节课,分别接触了动态规划,机器学习的背景,特征向量以及梯度下降。 本节课,我们在深入的学习一点其他的知识,我们来看看K-means. 当然,在本节课我们也只是浅尝即止,关于这些内容,后面我们还有更详细的内容等着我们去深入学习。
Thumbnail
本篇基於2023/06/11,Leonardo.Ai官方DC中文區的MasterClass大師課實況精華影片的內容來整理,目標對象是使用過AI繪圖工具,但對其底層邏輯沒有概念的朋友。用盡量簡單的方式來講述,深淺結合幫助你在使用上能獲得更高的掌控度。 並逐一介紹在Leo上設置參數與使用功能的技巧。
Thumbnail
本篇基於2023/06/11,Leonardo.Ai官方DC中文區的MasterClass大師課實況精華影片的內容來整理,目標對象是使用過AI繪圖工具,但對其底層邏輯沒有概念的朋友。用盡量簡單的方式來講述,深淺結合幫助你在使用上能獲得更高的掌控度。 並逐一介紹在Leo上設置參數與使用功能的技巧。
Thumbnail
內容介紹:什麼是資料庫標籤生成、標籤生成的優勢以及如何實際運用在行銷場景。 適合閱讀對象:數位行銷或是產品單位的團隊成員。
Thumbnail
內容介紹:什麼是資料庫標籤生成、標籤生成的優勢以及如何實際運用在行銷場景。 適合閱讀對象:數位行銷或是產品單位的團隊成員。
Thumbnail
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
Thumbnail
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
Thumbnail
"網"就是把許多不同的知識點,排列組合編織成網。 一、組塊與分塊 舉個例子來說明,打籃球時要學會了運球、傳球、投籃,運球中又有換手運球、胯下運球、背後運球等等;傳球又有地板傳球、肩上傳球、跳傳等等;投籃有拋投、跳投、翻身跳投等等,籃球的知識分了很多細項,這些技術學會後將他排列組合,就會變成展新的技術
Thumbnail
"網"就是把許多不同的知識點,排列組合編織成網。 一、組塊與分塊 舉個例子來說明,打籃球時要學會了運球、傳球、投籃,運球中又有換手運球、胯下運球、背後運球等等;傳球又有地板傳球、肩上傳球、跳傳等等;投籃有拋投、跳投、翻身跳投等等,籃球的知識分了很多細項,這些技術學會後將他排列組合,就會變成展新的技術
Thumbnail
要怎麼用CNN來便是智能合約的漏洞呢?上回介紹了能認知文章脈絡的RNN,這是介紹結合word embedding的方法,加上強大的CNN分類器可以讓自然語言分類處理擦出怎麼樣的火花~
Thumbnail
要怎麼用CNN來便是智能合約的漏洞呢?上回介紹了能認知文章脈絡的RNN,這是介紹結合word embedding的方法,加上強大的CNN分類器可以讓自然語言分類處理擦出怎麼樣的火花~
Thumbnail
而在非監督式學習裡面,有一個種類的學習應用場景非常的特殊,它能夠幫助我們尋找資料之間隱藏的規則,協助我們去做商業決策,這就是我們今天想來談談的主題─關聯規則學習(association rule learning)...
Thumbnail
而在非監督式學習裡面,有一個種類的學習應用場景非常的特殊,它能夠幫助我們尋找資料之間隱藏的規則,協助我們去做商業決策,這就是我們今天想來談談的主題─關聯規則學習(association rule learning)...
Thumbnail
我相信不論是因為工作、實習或是學習的過程中,我們的思維模式都會不斷的變化,而實際中我認為需要具備的幾種思維模式為以下幾種: E 1.分類思維(具有數據的情況下)       其實往往我們已經具備這一種思維模式,畢竟工作上我們會將客戶分群、產品歸類、市場分級,也會有所謂的績效評價...許多事情其實都
Thumbnail
我相信不論是因為工作、實習或是學習的過程中,我們的思維模式都會不斷的變化,而實際中我認為需要具備的幾種思維模式為以下幾種: E 1.分類思維(具有數據的情況下)       其實往往我們已經具備這一種思維模式,畢竟工作上我們會將客戶分群、產品歸類、市場分級,也會有所謂的績效評價...許多事情其實都
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News