42/100 階層式聚類 🏗 像家族樹一樣逐層分組,適合分析層級關係!

更新於 發佈於 閱讀時間約 6 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》


42/100 第五週:非監督學習


42. 階層式聚類 🏗 像家族樹一樣逐層分組,適合分析層級關係!


階層式聚類 🏗

像家族樹一樣逐層分組,適合分析層級結構與關聯關係!

________________________________________

✅ 什麼是階層式聚類?(Hierarchical Clustering)


階層式聚類是一種非監督學習方法,透過計算樣本之間的距離,逐層建立資料的層級結構,結果通常呈現為「樹狀圖(Dendrogram)」。


📌 特別適合用來:


觀察樣本之間的「親疏關係」

分析層級結構(如生物進化樹)

社群關係分析、基因資料分析、商品分群

________________________________________


✅ 運作方式(兩種)


類型 說明


凝聚式(Agglomerative) 最常用,從下而上,每個點先獨立,逐步合併成群

分裂式(Divisive) 從上而下,整體視為一群,逐步拆解成小群


🎯 以凝聚式最常見

________________________________________


✅ 演算法流程(Agglomerative 範例)


1️⃣ 每一筆資料各自為一群

2️⃣ 計算所有群之間的距離(相似度)

3️⃣ 合併「最近的兩群」

4️⃣ 重複步驟 2-3,直到只剩下一群或達到預設群數


📌 最後會生成一張「樹狀圖(Dendrogram)」,清楚呈現資料的合併過程和層級結構。

________________________________________


✅ 常見距離計算方式(Linkage Methods)



單一連結(Single Linkage): 取群與群之間最近距離,可能形成鏈狀


完全連結(Complete Linkage): 取群與群之間最遠距離,群內更緊密


平均連結(Average Linkage): 計算兩群內所有點的平均距離


Ward’s Method: 最小化群內變異(最常用,效果最好)

________________________________________


✅ Python 簡單實作範例(含樹狀圖)


python


import numpy as np

import matplotlib.pyplot as plt

from scipy.cluster.hierarchy import dendrogram, linkage

from sklearn.datasets import make_blobs


# 產生模擬數據

X, _ = make_blobs(n_samples=30, centers=3, random_state=42)


# 執行階層式聚類

Z = linkage(X, method='ward')


# 畫出樹狀圖

plt.figure(figsize=(10, 5))

dendrogram(Z)

plt.title('Hierarchical Clustering Dendrogram')

plt.xlabel('Sample Index')

plt.ylabel('Distance')

plt.show()

_______________

這段程式碼示範了如何使用 Python 執行階層式聚類(Hierarchical Clustering),先透過 make_blobs 生成具有三個中心的模擬資料,接著使用 scipy 的 linkage 函數(採用 Ward 方法)計算樣本間的聚類順序與距離,最後利用 dendrogram 繪製樹狀圖,視覺化聚類過程。樹狀圖能幫助我們觀察資料樣本的相似性與合併順序,並可依據不同高度決定最終要分成幾群,是探索性資料分析中常用的工具之一。

_________________________


✅ 階層式聚類的優點與缺點


✅ 優點


不需先決定群數 K

結果具層次感,適合分析關係

適合視覺化(Dendrogram)


⚠ 缺點


計算成本高,尤其資料量大時

對離群點敏感

無法「回頭」調整已合併的群

________________________________________


✅ 應用場景


基因與生物資訊分析:找出基因相似群

市場消費行為分層:高價值、中價值、低價值客群

文本或語言資料聚類:建立詞彙關聯樹

社群網路結構分析

________________________________________


✅ 總結重點(金句)


💡 「階層式聚類讓 AI 看出資料之間的親疏遠近,像家族樹一樣,層層拆解、逐層合併!」

________________________________________


📌 如果你想知道: ✅ 如何自動決定最佳分群數(剪樹技巧)


✅ 階層式 vs K-Means 聚類的差異與選擇時機

✅ 適合大數據的改良版本(如 Fast Hierarchical Clustering)


歡迎告訴我,我完整補上!



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
2會員
106內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/05/28
K-Means 是經典非監督聚類:AI 依據資料相似度自動將樣本分成 K 群,流程「指派→更新」迭代至收斂。速度快、易實作,適合客戶分群與圖像壓縮;但須先選 K,對初始中心與離群值敏感,可用 Elbow 曲線或 Silhouette 分數判斷最佳 K。
Thumbnail
2025/05/28
K-Means 是經典非監督聚類:AI 依據資料相似度自動將樣本分成 K 群,流程「指派→更新」迭代至收斂。速度快、易實作,適合客戶分群與圖像壓縮;但須先選 K,對初始中心與離群值敏感,可用 Elbow 曲線或 Silhouette 分數判斷最佳 K。
Thumbnail
2025/05/28
分類評估不只看準確率,依任務重點選擇精準率、召回率、F1 或 ROC-AUC:詐欺偵測求精準,癌症篩檢重召回,不平衡資料看 AUC,F1 兼顧兩者;掌握指標特性,才能對模型調參、比較與落地部署,記住:指標選錯,決策也會錯!
Thumbnail
2025/05/28
分類評估不只看準確率,依任務重點選擇精準率、召回率、F1 或 ROC-AUC:詐欺偵測求精準,癌症篩檢重召回,不平衡資料看 AUC,F1 兼顧兩者;掌握指標特性,才能對模型調參、比較與落地部署,記住:指標選錯,決策也會錯!
Thumbnail
2025/05/28
多類別分類面對標籤 > 2 的任務,常用 One-vs-All :將問題拆成 N 個二分類器,各自判斷「是否為第 i 類」。此法概念直觀、能平行訓練,並與 SVM、邏輯回歸等二分類模型相容,適合資源有限又需快速上線的應用,但要留意一旦某類難分,可能拖累整體表現。
Thumbnail
2025/05/28
多類別分類面對標籤 > 2 的任務,常用 One-vs-All :將問題拆成 N 個二分類器,各自判斷「是否為第 i 類」。此法概念直觀、能平行訓練,並與 SVM、邏輯回歸等二分類模型相容,適合資源有限又需快速上線的應用,但要留意一旦某類難分,可能拖累整體表現。
Thumbnail
看更多
你可能也想看
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力,同時在AI說書 - 從0開始 - 26靠ChatGPT產生Decision Tree程式,現在我們來
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力,同時在AI說書 - 從0開始 - 26靠ChatGPT產生Decision Tree程式,現在我們來
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News