機器學習(下集)非監督式學習筆記:分群、關聯分析與降維

更新於 發佈於 閱讀時間約 7 分鐘

接續上集監督式學習的觀念,本篇筆記紀錄非監督式學習的常見名詞和概念。

以下圖片截圖自 All Machine Learning algorithms explained in 17 min

2. 非監督式學習 (Unsupervised Learning)

2.1 分群 (Clustering)

分群Cluster 和分類 Classification 是兩個容易混淆的概念,分類是監督式學習,我們已經有已知兩類的資料特徵(例如:貓和狗)。

左圖的資料有標籤,右圖沒有。

左圖的資料有標籤,右圖沒有。

但在不清楚分類的情況底下,有可能會分成許多類別。有一個方法--K-means 可以做分類

K-Means:聚類演算法,用於將資料分為 K 個群組

  1. 初始化中心點(Centroids): 隨機選取 K 個點 (譬如3點) 作為初始中心點,這些點代表每個群組的中心。
  2. 分配資料點到最近的中心點: 計算每個資料點與所有中心點之間的距離,將該點分配到最近的中心點所屬的群組。
  3. 更新中心點: 將每個群組內的所有資料點的平均值計算出來,並將其設為新的中心點。
  4. 重複分配與更新: 重複步驟 2 和 3,直到中心點位置不再變化(或變化小於設定的閾值),即達到收斂。
  5. 結果輸出: 所有資料點被分配到 K 個群組中,每個群組有一個最終的中心點。

適用場景

  1. 顧客分群: 例如,根據購買行為將顧客分為「高價值顧客」、「潛在顧客」和「低價值顧客」。
  2. 影像分割: 將影像中的像素分為不同群組,進行目標識別或背景分離。
  3. 文件分類: 依據文件的內容相似性分群,用於文本挖掘。
  4. 醫學研究: 分析患者的症狀或基因特徵,將患者分為不同的亞群以進行診斷或治療。

影片參考:【机器学习】聚类和K-means算法

2.2 關聯分析 (Association)

「關聯規則」(Association Rules),例如超市購物籃分析(Market Basket Analysis)。其核心在於找出不同物品之間的關聯性,回答「如果客戶買了商品 A,是否會同時購買商品 B」。分析結果可能會買奶油的人會傾向買蛋,所以在奶油區廣告蛋的特價會有效果。

常見演算法:Apriori

  • Support(支持度): 表示特定項目組合出現在資料集中的頻率。
raw-image


  • Confidence(置信度): 表示在已購買 A 的情況下,同時購買 B 的可能性。
raw-image
  • Lift(提升度): 衡量規則的強度,值越大表示 A 與 B 的關聯越強。
raw-image

舉個簡單的 Apriori 演算法例子:

1. 資料準備

假設我們有以下交易數據(購物籃):

  • 交易 1: {牛奶, 麵包, 起司}
  • 交易 2: {牛奶, 麵包}
  • 交易 3: {奶油, 麵包}
  • 交易 4: {牛奶, 起司}
  • 交易 5: {牛奶, 麵包, 起司}

2. 篩選重要項目

在篩選時,通常會設置一個門檻,例如**支援度(Support)信賴度(Confidence)**的最低值,來排除不重要的規則。舉例來說:

  • 支援度計算:每個項目的出現比例,例如「牛奶 -> 麵包」的支援度是 60%,因為在 5 筆交易中,有 3 筆同時包含「牛奶」和「麵包」。
  • 信賴度計算:在包含「牛奶」的交易中,有多少比例同時包含「麵包」。例如,信賴度是 3/4=75%。

3. 篩選規則的應用

當我們發現規則「牛奶 -> 麵包」的支援度和信賴度足夠高,則可以進一步分析:

  • 促銷建議:如果顧客買了牛奶,建議一起購買麵包。
  • 陳列策略:將牛奶與麵包放在相近的貨架上。

4. 處理多項目組合

如果購物籃中有多個項目(如 a、b、c、d),我們可以用關聯分析找出例如:

  • 單一關聯:「a -> b」
  • 多重關聯:「a, b -> c」

例如:

  • 「牛奶, 麵包 -> 起司」表示顧客買了牛奶和麵包時,有很高機率會買起司。
  • Lift(提升度)可幫助確定這些關聯是否比隨機出現更有意義。

我請 ChatGPT 幫我生成關聯圖,透過 Lift 的程度就可以判斷多項產品組合的關係。

raw-image

2.3 降維 (Dimensionality Reduction)

降維是一種將高維資料投影到低維空間的技術,用於減少資料的複雜度,同時保留重要資訊。它主要應用於資料可視化和降噪,常用的方法有 PCAt-SNE

什麼是維度?

  1. 數據的特徵數量
    • 每個「維度」代表一個數據特徵。例如,若我們分析「年齡」和「收入」,這是2個維度。通常是表格的每個欄表頭。
    • 假設我們增加更多特徵(如教育背景、消費習慣等),這些特徵都會成為額外的維度。
  2. 幾何空間的表示
    • 在2維空間,我們可以用X和Y軸描繪數據點;在3維空間,則加入Z軸。
    • 若超過3維,我們無法直接視覺化,但數學上可以表示為多維空間。
  3. 為何需要降維?
    • 當維度太多(高維度),分析會變得複雜,並可能產生「維度詛咒」(資料稀疏,模型效果變差)。PCA 就是一種有效的降維方法。

PCA (Principal Component Analysis) 核心概念

PCA 主要目的是:

  • 壓縮數據維度,但仍保留大部分數據的變異(資訊量)。
  • 找出資料中「影響最大的方向」(主成分),以減少維度。會考慮1. 最大可分性 (投影到平面的時候盡量分開) 2. 最近重構性,樣品投影到平面要盡量小,如紅色虛線的距離加總要盡量小。
raw-image


步驟:

  1. 標準化資料(讓每個特徵的均值為 0,方差為 1)。也需要做去中心化,讓中心平移到原點
  2. 計算資料的共變異矩陣,了解變數之間的關聯。
  3. 找出共變異矩陣的特徵值與特徵向量。
  4. 選取解釋變異最多的特徵向量,作為主成分。

如何找到

raw-image


應用場景:

  • 降維以加速模型運行。
  • 去除資料中的噪音,保留核心資訊。
  • 資料可視化:將高維度資料壓縮到 2D 或 3D。


  • t-SNE:如何用於高維資料的可視化。(待補充)

3. 強化學習 (Reinforcement Learning)

3.1 核心概念

  • 強化學習與監督式學習的區別:回饋機制 (Reward Mechanism)。
  • 沒有固定的「標籤」,而是透過試錯學習如何達成目標。
  • 系統根據行動結果(環境的回饋)得到獎勵或懲罰,目的是最大化獎勵。
  • 例子:
    • 下棋,AI 嘗試不同策略,根據勝負獲得分數獎勵。
    • 自駕車、機器人導航
留言
avatar-img
留言分享你的想法!
avatar-img
越南放大鏡 X 下班資工系
13會員
60內容數
雙重身份:越南放大鏡 X 下班資工系 政大東南亞語言學系是我接觸越南語的起點,畢業後找越南外派工作的生活跟資訊時,發現幾乎都是清單式的分享,很難身歷其境。所以我希望「越南放大鏡」可以帶讀者看到更多細節和深入的觀察。 - 下班資工系則是自學資工系的課程內容,記錄實際操作的過程,學習理論的過程。希望可以跟讀者一起成長。
2025/04/24
本系列文章將循序漸進地介紹 JavaScript 的核心概念,從基礎語法到進階應用,例如非同步程式設計和 React 基礎。內容淺顯易懂,並使用生活化的比喻幫助讀者理解,搭配程式碼範例,適合 JavaScript 初學者學習。
Thumbnail
2025/04/24
本系列文章將循序漸進地介紹 JavaScript 的核心概念,從基礎語法到進階應用,例如非同步程式設計和 React 基礎。內容淺顯易懂,並使用生活化的比喻幫助讀者理解,搭配程式碼範例,適合 JavaScript 初學者學習。
Thumbnail
2025/04/21
本文介紹行動通訊網路的演進歷史,從1G到5G,並說明ITU與3GPP在制定通訊規格上的重要角色,以及5G的三大關鍵應用場景:URLLC、eMBB和mMTC。
Thumbnail
2025/04/21
本文介紹行動通訊網路的演進歷史,從1G到5G,並說明ITU與3GPP在制定通訊規格上的重要角色,以及5G的三大關鍵應用場景:URLLC、eMBB和mMTC。
Thumbnail
2025/04/11
這篇文章說明網路的七層模型、IP 位址、通訊埠、TCP/UDP 協定、HTTP 協定、HTTP 狀態碼以及 WebSocket,並解釋它們之間的關係與互動方式。文中包含許多圖表和範例,幫助讀者理解這些網路概念。
Thumbnail
2025/04/11
這篇文章說明網路的七層模型、IP 位址、通訊埠、TCP/UDP 協定、HTTP 協定、HTTP 狀態碼以及 WebSocket,並解釋它們之間的關係與互動方式。文中包含許多圖表和範例,幫助讀者理解這些網路概念。
Thumbnail
看更多
你可能也想看
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
本篇筆記介紹非監督式學習的三大類別:分群、關聯分析和降維,並深入說明其概念、演算法和應用場景。包含K-Means分群演算法、Apriori關聯分析演算法、PCA降維技術,以及強化學習的基礎概念。
Thumbnail
本篇筆記介紹非監督式學習的三大類別:分群、關聯分析和降維,並深入說明其概念、演算法和應用場景。包含K-Means分群演算法、Apriori關聯分析演算法、PCA降維技術,以及強化學習的基礎概念。
Thumbnail
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
Thumbnail
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
Thumbnail
Hi,你好。我是茶桁。 我们在机器学习入门已经学习了两节课,分别接触了动态规划,机器学习的背景,特征向量以及梯度下降。 本节课,我们在深入的学习一点其他的知识,我们来看看K-means. 当然,在本节课我们也只是浅尝即止,关于这些内容,后面我们还有更详细的内容等着我们去深入学习。
Thumbnail
Hi,你好。我是茶桁。 我们在机器学习入门已经学习了两节课,分别接触了动态规划,机器学习的背景,特征向量以及梯度下降。 本节课,我们在深入的学习一点其他的知识,我们来看看K-means. 当然,在本节课我们也只是浅尝即止,关于这些内容,后面我们还有更详细的内容等着我们去深入学习。
Thumbnail
本篇基於2023/06/11,Leonardo.Ai官方DC中文區的MasterClass大師課實況精華影片的內容來整理,目標對象是使用過AI繪圖工具,但對其底層邏輯沒有概念的朋友。用盡量簡單的方式來講述,深淺結合幫助你在使用上能獲得更高的掌控度。 並逐一介紹在Leo上設置參數與使用功能的技巧。
Thumbnail
本篇基於2023/06/11,Leonardo.Ai官方DC中文區的MasterClass大師課實況精華影片的內容來整理,目標對象是使用過AI繪圖工具,但對其底層邏輯沒有概念的朋友。用盡量簡單的方式來講述,深淺結合幫助你在使用上能獲得更高的掌控度。 並逐一介紹在Leo上設置參數與使用功能的技巧。
Thumbnail
內容介紹:什麼是資料庫標籤生成、標籤生成的優勢以及如何實際運用在行銷場景。 適合閱讀對象:數位行銷或是產品單位的團隊成員。
Thumbnail
內容介紹:什麼是資料庫標籤生成、標籤生成的優勢以及如何實際運用在行銷場景。 適合閱讀對象:數位行銷或是產品單位的團隊成員。
Thumbnail
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
Thumbnail
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
Thumbnail
"網"就是把許多不同的知識點,排列組合編織成網。 一、組塊與分塊 舉個例子來說明,打籃球時要學會了運球、傳球、投籃,運球中又有換手運球、胯下運球、背後運球等等;傳球又有地板傳球、肩上傳球、跳傳等等;投籃有拋投、跳投、翻身跳投等等,籃球的知識分了很多細項,這些技術學會後將他排列組合,就會變成展新的技術
Thumbnail
"網"就是把許多不同的知識點,排列組合編織成網。 一、組塊與分塊 舉個例子來說明,打籃球時要學會了運球、傳球、投籃,運球中又有換手運球、胯下運球、背後運球等等;傳球又有地板傳球、肩上傳球、跳傳等等;投籃有拋投、跳投、翻身跳投等等,籃球的知識分了很多細項,這些技術學會後將他排列組合,就會變成展新的技術
Thumbnail
要怎麼用CNN來便是智能合約的漏洞呢?上回介紹了能認知文章脈絡的RNN,這是介紹結合word embedding的方法,加上強大的CNN分類器可以讓自然語言分類處理擦出怎麼樣的火花~
Thumbnail
要怎麼用CNN來便是智能合約的漏洞呢?上回介紹了能認知文章脈絡的RNN,這是介紹結合word embedding的方法,加上強大的CNN分類器可以讓自然語言分類處理擦出怎麼樣的火花~
Thumbnail
而在非監督式學習裡面,有一個種類的學習應用場景非常的特殊,它能夠幫助我們尋找資料之間隱藏的規則,協助我們去做商業決策,這就是我們今天想來談談的主題─關聯規則學習(association rule learning)...
Thumbnail
而在非監督式學習裡面,有一個種類的學習應用場景非常的特殊,它能夠幫助我們尋找資料之間隱藏的規則,協助我們去做商業決策,這就是我們今天想來談談的主題─關聯規則學習(association rule learning)...
Thumbnail
我相信不論是因為工作、實習或是學習的過程中,我們的思維模式都會不斷的變化,而實際中我認為需要具備的幾種思維模式為以下幾種: E 1.分類思維(具有數據的情況下)       其實往往我們已經具備這一種思維模式,畢竟工作上我們會將客戶分群、產品歸類、市場分級,也會有所謂的績效評價...許多事情其實都
Thumbnail
我相信不論是因為工作、實習或是學習的過程中,我們的思維模式都會不斷的變化,而實際中我認為需要具備的幾種思維模式為以下幾種: E 1.分類思維(具有數據的情況下)       其實往往我們已經具備這一種思維模式,畢竟工作上我們會將客戶分群、產品歸類、市場分級,也會有所謂的績效評價...許多事情其實都
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News