階層式分群分析(Hierarchical Clustering):從概念到R實作

更新 發佈閱讀 6 分鐘

在資料分析中,分群分析(Cluster Analysis)是一種常見的無監督學習(Unsupervised Learning)方法,用來探索資料中的自然群集結構。當我們沒有標籤資料、也不知道該分成幾群時,分群分析能幫助我們發現潛在的分類邏輯。

在眾多分群方法中,階層式分群分析(Hierarchical Clustering)以「從個體到群體、由小而大」的方式建構群集結構,並能用一張樹狀圖(dendrogram)清楚地展示整體層級關係。


一、階層式分群分析的核心概念

階層式分群可分為兩種思考方向:

  1. 凝聚式(Agglomerative)
    每個觀察值起初都是一群,依據相似程度逐步合併(自下而上)。
  2. 分裂式(Divisive)
    先將所有資料視為一群,再逐步拆分(自上而下)。

實務上最常見的是「凝聚式」方法。

整個分析結果可以用「族譜樹狀圖(dendrogram)」呈現,顯示每次合併的距離與層級。

二、距離與連結方式(Linkage Method)

階層式分群的結果會受到兩個要素影響:

  1. 距離衡量方式(Distance Metric)
    • 歐氏距離(Euclidean distance)
    • 曼哈頓距離(Manhattan distance)
    • 馬氏距離(Mahalanobis distance)

2.群與群之間的距離定義(Linkage Method)

raw-image

在社會科學與醫學研究中,Ward法最為常見,因為它能產生相對穩定、緊湊的群組。

三、適用情境

階層式分群分析特別適合以下情境:

  • 📊 探索性分析(Exploratory Analysis)
    想先觀察資料的自然群集結構。
  • 🧬 樣本數較少(數十到數百筆)
    可清楚繪出樹狀圖,不易過度複雜。
  • 🧠 重視解釋與可視化
    可透過 dendrogram 理解每次合併的層級與距離。
  • 🧪 應用領域廣泛
    例如基因表現資料分群、心理量表項目分類、病患分型、消費者行為分析等。

四、與其他分群方法的比較

raw-image

五、實作範例:R 語言進行階層式分群

1️⃣ 資料介紹:USArrests

這是 R 內建的一個經典資料集,記錄了 美國 50 州在 1973 年的四項暴力犯罪率

raw-image

這份資料常被用來示範分群分析,因為各州在犯罪型態上存在自然差異。


2️⃣ R 程式碼實作

# 載入資料
data("USArrests")

# 1. 標準化(避免不同變數尺度差異)
data_scaled <- scale(USArrests)

# 2. 計算距離矩陣(歐氏距離)
dist_matrix <- dist(data_scaled, method = "euclidean")

# 3. 階層式分群(使用 Ward.D2)
hc <- hclust(dist_matrix, method = "ward.D2")

# 4. 繪製樹狀圖
plot(hc, main = "階層式分群樹狀圖", xlab = "", sub = "")

# 5. 以三群為例:標示框線
rect.hclust(hc, k = 3, border = "red")

# 6. 分群結果
groups <- cutree(hc, k = 3)
table(groups)

這樣即可看到樹狀圖與三群劃分的結果

raw-image

六、如何判斷「合理的分群數」?

在階層式分群中,樹狀圖提供了視覺線索 ---越「高」的水平線代表群體合併時差異越大。 理論上,應在樹狀圖的「長枝」處切割,以形成彼此差異明顯的群。

但除了目測之外,還有更系統的方法:肘部法則(Elbow Method)


💡 肘部法則 (Elbow Method)

肘部法則透過觀察「群內平方和(Within-cluster sum of squares, WSS)」的變化,

找出當群數增加時,誤差下降幅度開始趨緩的轉折點(像手肘一樣的彎曲處)

在 R 中,我們可用 factoextra 套件視覺化這個現象:

# 安裝與載入套件
install.packages("factoextra")
library(factoextra)

# 使用 Ward 法進行階層分群
hc <- hclust(dist_matrix, method = "ward.D2")

# 繪製肘部法則圖
fviz_nbclust(data_scaled, FUN = hcut, method = "wss") +
labs(title = "肘部法則圖:選擇最佳群數")
raw-image

在圖中,你會看到 WSS 隨著群數增加而下降,但在某個點之後,下降速度明顯趨緩。 那個「轉折點」就是最合理的分群數。

七、結語

階層式分群分析像是一棵「資料的家族樹」,幫助我們理解觀察值之間的親近程度與分群邏輯。它的優勢在於可視化、可解釋性高,非常適合在研究初期探索資料結構。在實務應用上,搭配肘部法則樹狀圖觀察,就能更有依據地決定分群數。


🔍 延伸閱讀

  • Kaufman, Leonard, and Peter J. Rousseeuw. Finding groups in data: an introduction to cluster analysis. John Wiley & Sons, 2009.
  • S Brian, Everitt, et al. "Cluster analysis." Library of Congress Cataloging-in-Publication Data, 2011.
  • R 官方文件:hclust, cutree, factoextra 套件說明




留言
avatar-img
慵懶貓系的小墨魚:數據外的日常觀察
3會員
50內容數
小墨魚,一位白天擅長資料分析與統計建模的數據工作者,夜裡則沉浸在書本與文字裡,透過閱讀與寫作與世界對話。工作之餘,也兼職統計家教,協助學生理解複雜的統計概念與軟體操作。這裡記錄我的書評、生活觀察、科技碎念,有時也寫下關於時間與情緒的小片段。願這些文字,成為我們在日常中相遇的溫柔片刻。
2025/10/21
在上一篇文章中,我們一起漫步於機率分布的世界,認識了像常態分布、二項分布、柏松分布這些基礎卻無比重要的「地標」。它們是統計學的基石,描述了數據世界中最常見的幾種規律。 然而,機率的宇宙浩瀚無垠。有讀者朋友提醒,我們還錯過了許多同樣璀璨的星辰。今天,就讓我們再次啟程,探索另外10個關鍵的機率分布:伽
Thumbnail
2025/10/21
在上一篇文章中,我們一起漫步於機率分布的世界,認識了像常態分布、二項分布、柏松分布這些基礎卻無比重要的「地標」。它們是統計學的基石,描述了數據世界中最常見的幾種規律。 然而,機率的宇宙浩瀚無垠。有讀者朋友提醒,我們還錯過了許多同樣璀璨的星辰。今天,就讓我們再次啟程,探索另外10個關鍵的機率分布:伽
Thumbnail
2025/10/16
探討奧卡姆剃刀哲學原則,解釋其在資料科學和機器學習中如何轉化為「模型簡約原則」,以及闡述「過度擬合」現象。文章介紹了AIC和BIC兩個量化模型簡約的統計工具,並提供從哲學思維到實際應用的全面指南。
Thumbnail
2025/10/16
探討奧卡姆剃刀哲學原則,解釋其在資料科學和機器學習中如何轉化為「模型簡約原則」,以及闡述「過度擬合」現象。文章介紹了AIC和BIC兩個量化模型簡約的統計工具,並提供從哲學思維到實際應用的全面指南。
Thumbnail
2025/10/10
想像我們站在一間巨大的「數據遊樂場」裡。在這裡,所有現象——從丟一枚硬幣、買一張彩券,到研究人類的壽命、社會的收入分佈——其背後都有一套隱藏的「規則」在支配。這套規則,決定了哪些結果比較常見,哪些結果極為罕見。而這套規則的「說明書」,就是我們今天要探討的主角:機率分佈。
Thumbnail
2025/10/10
想像我們站在一間巨大的「數據遊樂場」裡。在這裡,所有現象——從丟一枚硬幣、買一張彩券,到研究人類的壽命、社會的收入分佈——其背後都有一套隱藏的「規則」在支配。這套規則,決定了哪些結果比較常見,哪些結果極為罕見。而這套規則的「說明書」,就是我們今天要探討的主角:機率分佈。
Thumbnail
看更多
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
Thumbnail
本文將介紹如何用Python繪製群組直條圖。
Thumbnail
本文將介紹如何用Python繪製群組直條圖。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News