機器學習(下集)非監督式學習筆記:分群、關聯分析與降維

更新於 發佈於 閱讀時間約 7 分鐘

接續上集監督式學習的觀念,本篇筆記紀錄非監督式學習的常見名詞和概念。

以下圖片截圖自 All Machine Learning algorithms explained in 17 min

2. 非監督式學習 (Unsupervised Learning)

2.1 分群 (Clustering)

分群Cluster 和分類 Classification 是兩個容易混淆的概念,分類是監督式學習,我們已經有已知兩類的資料特徵(例如:貓和狗)。

左圖的資料有標籤,右圖沒有。

左圖的資料有標籤,右圖沒有。

但在不清楚分類的情況底下,有可能會分成許多類別。有一個方法--K-means 可以做分類

K-Means:聚類演算法,用於將資料分為 K 個群組

  1. 初始化中心點(Centroids): 隨機選取 K 個點 (譬如3點) 作為初始中心點,這些點代表每個群組的中心。
  2. 分配資料點到最近的中心點: 計算每個資料點與所有中心點之間的距離,將該點分配到最近的中心點所屬的群組。
  3. 更新中心點: 將每個群組內的所有資料點的平均值計算出來,並將其設為新的中心點。
  4. 重複分配與更新: 重複步驟 2 和 3,直到中心點位置不再變化(或變化小於設定的閾值),即達到收斂。
  5. 結果輸出: 所有資料點被分配到 K 個群組中,每個群組有一個最終的中心點。

適用場景

  1. 顧客分群: 例如,根據購買行為將顧客分為「高價值顧客」、「潛在顧客」和「低價值顧客」。
  2. 影像分割: 將影像中的像素分為不同群組,進行目標識別或背景分離。
  3. 文件分類: 依據文件的內容相似性分群,用於文本挖掘。
  4. 醫學研究: 分析患者的症狀或基因特徵,將患者分為不同的亞群以進行診斷或治療。

影片參考:【机器学习】聚类和K-means算法

2.2 關聯分析 (Association)

「關聯規則」(Association Rules),例如超市購物籃分析(Market Basket Analysis)。其核心在於找出不同物品之間的關聯性,回答「如果客戶買了商品 A,是否會同時購買商品 B」。分析結果可能會買奶油的人會傾向買蛋,所以在奶油區廣告蛋的特價會有效果。

常見演算法:Apriori

  • Support(支持度): 表示特定項目組合出現在資料集中的頻率。
raw-image


  • Confidence(置信度): 表示在已購買 A 的情況下,同時購買 B 的可能性。
raw-image
  • Lift(提升度): 衡量規則的強度,值越大表示 A 與 B 的關聯越強。
raw-image

舉個簡單的 Apriori 演算法例子:

1. 資料準備

假設我們有以下交易數據(購物籃):

  • 交易 1: {牛奶, 麵包, 起司}
  • 交易 2: {牛奶, 麵包}
  • 交易 3: {奶油, 麵包}
  • 交易 4: {牛奶, 起司}
  • 交易 5: {牛奶, 麵包, 起司}

2. 篩選重要項目

在篩選時,通常會設置一個門檻,例如**支援度(Support)信賴度(Confidence)**的最低值,來排除不重要的規則。舉例來說:

  • 支援度計算:每個項目的出現比例,例如「牛奶 -> 麵包」的支援度是 60%,因為在 5 筆交易中,有 3 筆同時包含「牛奶」和「麵包」。
  • 信賴度計算:在包含「牛奶」的交易中,有多少比例同時包含「麵包」。例如,信賴度是 3/4=75%。

3. 篩選規則的應用

當我們發現規則「牛奶 -> 麵包」的支援度和信賴度足夠高,則可以進一步分析:

  • 促銷建議:如果顧客買了牛奶,建議一起購買麵包。
  • 陳列策略:將牛奶與麵包放在相近的貨架上。

4. 處理多項目組合

如果購物籃中有多個項目(如 a、b、c、d),我們可以用關聯分析找出例如:

  • 單一關聯:「a -> b」
  • 多重關聯:「a, b -> c」

例如:

  • 「牛奶, 麵包 -> 起司」表示顧客買了牛奶和麵包時,有很高機率會買起司。
  • Lift(提升度)可幫助確定這些關聯是否比隨機出現更有意義。

我請 ChatGPT 幫我生成關聯圖,透過 Lift 的程度就可以判斷多項產品組合的關係。

raw-image

2.3 降維 (Dimensionality Reduction)

降維是一種將高維資料投影到低維空間的技術,用於減少資料的複雜度,同時保留重要資訊。它主要應用於資料可視化和降噪,常用的方法有 PCAt-SNE

什麼是維度?

  1. 數據的特徵數量
    • 每個「維度」代表一個數據特徵。例如,若我們分析「年齡」和「收入」,這是2個維度。通常是表格的每個欄表頭。
    • 假設我們增加更多特徵(如教育背景、消費習慣等),這些特徵都會成為額外的維度。
  2. 幾何空間的表示
    • 在2維空間,我們可以用X和Y軸描繪數據點;在3維空間,則加入Z軸。
    • 若超過3維,我們無法直接視覺化,但數學上可以表示為多維空間。
  3. 為何需要降維?
    • 當維度太多(高維度),分析會變得複雜,並可能產生「維度詛咒」(資料稀疏,模型效果變差)。PCA 就是一種有效的降維方法。

PCA (Principal Component Analysis) 核心概念

PCA 主要目的是:

  • 壓縮數據維度,但仍保留大部分數據的變異(資訊量)。
  • 找出資料中「影響最大的方向」(主成分),以減少維度。會考慮1. 最大可分性 (投影到平面的時候盡量分開) 2. 最近重構性,樣品投影到平面要盡量小,如紅色虛線的距離加總要盡量小。
raw-image


步驟:

  1. 標準化資料(讓每個特徵的均值為 0,方差為 1)。也需要做去中心化,讓中心平移到原點
  2. 計算資料的共變異矩陣,了解變數之間的關聯。
  3. 找出共變異矩陣的特徵值與特徵向量。
  4. 選取解釋變異最多的特徵向量,作為主成分。

如何找到

raw-image


應用場景:

  • 降維以加速模型運行。
  • 去除資料中的噪音,保留核心資訊。
  • 資料可視化:將高維度資料壓縮到 2D 或 3D。


  • t-SNE:如何用於高維資料的可視化。(待補充)

3. 強化學習 (Reinforcement Learning)

3.1 核心概念

  • 強化學習與監督式學習的區別:回饋機制 (Reward Mechanism)。
  • 沒有固定的「標籤」,而是透過試錯學習如何達成目標。
  • 系統根據行動結果(環境的回饋)得到獎勵或懲罰,目的是最大化獎勵。
  • 例子:
    • 下棋,AI 嘗試不同策略,根據勝負獲得分數獎勵。
    • 自駕車、機器人導航
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
深入探討監督式學習中的分類預測,涵蓋邏輯回歸、混淆矩陣、模型評估指標 (Accuracy, Precision, Recall, F1 Score)、ROC 曲線、AUC,以及 KNN、SVM 和 Naive Bayes 等分類演算法。還介紹決策樹、Bagging、Boosting 等集成學習方法。
這篇文章提供機器學習和人工智慧的基礎概念,包含監督式學習、非監督式學習、強化學習,以及模型訓練、優化和評估等重要環節。文中也涵蓋了特徵工程、特徵縮放、維度詛咒等關鍵概念,並簡要介紹了正規化、K折交叉驗證等進階技術。
本文回顧向量內積、方向導數與梯度的概念,並以生活化的比喻和數學公式說明它們在微積分和機器學習中的應用,尤其是在梯度下降法中尋找函數最低點的過程。
本文提供微分的基礎概念介紹,包含微分的定義、極限的應用、Power Rule 和 Chain Rule 的說明,以及偏微分的概念。文中包含圖表公式,並以淺顯易懂的方式說明微積分在 AI 模型訓練中的重要性。
這篇文章介紹了幾種常見的密碼破解方法,例如字典攻擊、密碼填充攻擊、彩虹表攻擊等,並說明使用密碼管理員、以及網站採用 Salting 技術等方式來提升資訊安全。文章也涵蓋了端對端加密、全盤加密、對稱式和非對稱式加密、Passkey 和模數運算等概念,並以淺顯易懂的方式說明其原理和應用。
本篇文章介紹網路爬蟲的基本概念和操作流程,適合初學者瞭解爬蟲的功能與合法使用方式。文章說明爬蟲如何自動蒐集資料及 API 的重要角色,同時提醒用戶注意指南與網站規範。作者也自己嘗試網路爬蟲。也期許自己可以在未來學習到網頁時,能成功操作 LinkedIn 的爬蟲
深入探討監督式學習中的分類預測,涵蓋邏輯回歸、混淆矩陣、模型評估指標 (Accuracy, Precision, Recall, F1 Score)、ROC 曲線、AUC,以及 KNN、SVM 和 Naive Bayes 等分類演算法。還介紹決策樹、Bagging、Boosting 等集成學習方法。
這篇文章提供機器學習和人工智慧的基礎概念,包含監督式學習、非監督式學習、強化學習,以及模型訓練、優化和評估等重要環節。文中也涵蓋了特徵工程、特徵縮放、維度詛咒等關鍵概念,並簡要介紹了正規化、K折交叉驗證等進階技術。
本文回顧向量內積、方向導數與梯度的概念,並以生活化的比喻和數學公式說明它們在微積分和機器學習中的應用,尤其是在梯度下降法中尋找函數最低點的過程。
本文提供微分的基礎概念介紹,包含微分的定義、極限的應用、Power Rule 和 Chain Rule 的說明,以及偏微分的概念。文中包含圖表公式,並以淺顯易懂的方式說明微積分在 AI 模型訓練中的重要性。
這篇文章介紹了幾種常見的密碼破解方法,例如字典攻擊、密碼填充攻擊、彩虹表攻擊等,並說明使用密碼管理員、以及網站採用 Salting 技術等方式來提升資訊安全。文章也涵蓋了端對端加密、全盤加密、對稱式和非對稱式加密、Passkey 和模數運算等概念,並以淺顯易懂的方式說明其原理和應用。
本篇文章介紹網路爬蟲的基本概念和操作流程,適合初學者瞭解爬蟲的功能與合法使用方式。文章說明爬蟲如何自動蒐集資料及 API 的重要角色,同時提醒用戶注意指南與網站規範。作者也自己嘗試網路爬蟲。也期許自己可以在未來學習到網頁時,能成功操作 LinkedIn 的爬蟲
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 28中闡述了一些AI專業者的未來發展方向,現在我們更細分: 人工智慧專家在人工智慧某一領域擁有專業知識或技能,包含微調模型、維護和支
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來,機器直接與其他機器通訊,人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。 自然語言處理演算法
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 24示範了ChatGPT程式的能力,現在我們繼續做下去。 Train a decision tree classifier mod
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 28中闡述了一些AI專業者的未來發展方向,現在我們更細分: 人工智慧專家在人工智慧某一領域擁有專業知識或技能,包含微調模型、維護和支
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來,機器直接與其他機器通訊,人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。 自然語言處理演算法
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 24示範了ChatGPT程式的能力,現在我們繼續做下去。 Train a decision tree classifier mod
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習