方格子 vocus

階層式分群分析（Hierarchical Clustering）：從概念到R實作

2025/10/30 更新2025/10/30 發佈閱讀 6 分鐘

在資料分析中，分群分析（Cluster Analysis）是一種常見的無監督學習（Unsupervised Learning）方法，用來探索資料中的自然群集結構。當我們沒有標籤資料、也不知道該分成幾群時，分群分析能幫助我們發現潛在的分類邏輯。

在眾多分群方法中，階層式分群分析（Hierarchical Clustering）以「從個體到群體、由小而大」的方式建構群集結構，並能用一張樹狀圖（dendrogram）清楚地展示整體層級關係。

一、階層式分群分析的核心概念

階層式分群可分為兩種思考方向：

凝聚式（Agglomerative）
每個觀察值起初都是一群，依據相似程度逐步合併（自下而上）。
分裂式（Divisive）
先將所有資料視為一群，再逐步拆分（自上而下）。

實務上最常見的是「凝聚式」方法。

整個分析結果可以用「族譜樹狀圖（dendrogram）」呈現，顯示每次合併的距離與層級。

二、距離與連結方式（Linkage Method）

階層式分群的結果會受到兩個要素影響：

距離衡量方式（Distance Metric）：

- 歐氏距離（Euclidean distance）
- 曼哈頓距離（Manhattan distance）
- 馬氏距離（Mahalanobis distance）

2.群與群之間的距離定義（Linkage Method）：

在社會科學與醫學研究中，Ward法最為常見，因為它能產生相對穩定、緊湊的群組。

三、適用情境

階層式分群分析特別適合以下情境：

📊 探索性分析（Exploratory Analysis）：
想先觀察資料的自然群集結構。
🧬 樣本數較少（數十到數百筆）：
可清楚繪出樹狀圖，不易過度複雜。
🧠 重視解釋與可視化：
可透過 dendrogram 理解每次合併的層級與距離。
🧪 應用領域廣泛：
例如基因表現資料分群、心理量表項目分類、病患分型、消費者行為分析等。

四、與其他分群方法的比較

五、實作範例：R 語言進行階層式分群

1️⃣ 資料介紹：`USArrests`

這是 R 內建的一個經典資料集，記錄了 美國 50 州在 1973 年的四項暴力犯罪率：

這份資料常被用來示範分群分析，因為各州在犯罪型態上存在自然差異。

2️⃣ R 程式碼實作

# 載入資料
data("USArrests")

# 1. 標準化（避免不同變數尺度差異）
data_scaled <- scale(USArrests)

# 2. 計算距離矩陣（歐氏距離）
dist_matrix <- dist(data_scaled, method = "euclidean")

# 3. 階層式分群（使用 Ward.D2）
hc <- hclust(dist_matrix, method = "ward.D2")

# 4. 繪製樹狀圖
plot(hc, main = "階層式分群樹狀圖", xlab = "", sub = "")

# 5. 以三群為例：標示框線
rect.hclust(hc, k = 3, border = "red")

# 6. 分群結果
groups <- cutree(hc, k = 3)
table(groups)

這樣即可看到樹狀圖與三群劃分的結果

六、如何判斷「合理的分群數」？

在階層式分群中，樹狀圖提供了視覺線索 ---越「高」的水平線代表群體合併時差異越大。理論上，應在樹狀圖的「長枝」處切割，以形成彼此差異明顯的群。

但除了目測之外，還有更系統的方法：肘部法則（Elbow Method）。

💡 肘部法則 (Elbow Method)

肘部法則透過觀察「群內平方和（Within-cluster sum of squares, WSS）」的變化，

找出當群數增加時，誤差下降幅度開始趨緩的轉折點（像手肘一樣的彎曲處）。

在 R 中，我們可用 factoextra 套件視覺化這個現象：

# 安裝與載入套件
install.packages("factoextra")
library(factoextra)

# 使用 Ward 法進行階層分群
hc <- hclust(dist_matrix, method = "ward.D2")

# 繪製肘部法則圖
fviz_nbclust(data_scaled, FUN = hcut, method = "wss") +
  labs(title = "肘部法則圖：選擇最佳群數")

在圖中，你會看到 WSS 隨著群數增加而下降，但在某個點之後，下降速度明顯趨緩。那個「轉折點」就是最合理的分群數。

七、結語

階層式分群分析像是一棵「資料的家族樹」，幫助我們理解觀察值之間的親近程度與分群邏輯。它的優勢在於可視化、可解釋性高，非常適合在研究初期探索資料結構。在實務應用上，搭配肘部法則或樹狀圖觀察，就能更有依據地決定分群數。

🔍 延伸閱讀

Kaufman, Leonard, and Peter J. Rousseeuw. Finding groups in data: an introduction to cluster analysis. John Wiley & Sons, 2009.
S Brian, Everitt, et al. "Cluster analysis." Library of Congress Cataloging-in-Publication Data, 2011.
R 官方文件：hclust, cutree, factoextra 套件說明

慵懶貓系的小墨魚:數據外的日常觀察統計小知識

留言

慵懶貓系的小墨魚:數據外的日常觀察

3會員

50內容數

小墨魚，一位白天擅長資料分析與統計建模的數據工作者，夜裡則沉浸在書本與文字裡，透過閱讀與寫作與世界對話。工作之餘，也兼職統計家教，協助學生理解複雜的統計概念與軟體操作。這裡記錄我的書評、生活觀察、科技碎念，有時也寫下關於時間與情緒的小片段。願這些文字，成為我們在日常中相遇的溫柔片刻。

慵懶貓系的小墨魚:數據外的日常觀察的其他內容

2025/10/21

探索機率宇宙的下一站：10個特殊有趣的機率分布，兼論模型與現實的對話

在上一篇文章中，我們一起漫步於機率分布的世界，認識了像常態分布、二項分布、柏松分布這些基礎卻無比重要的「地標」。它們是統計學的基石，描述了數據世界中最常見的幾種規律。然而，機率的宇宙浩瀚無垠。有讀者朋友提醒，我們還錯過了許多同樣璀璨的星辰。今天，就讓我們再次啟程，探索另外10個關鍵的機率分布：伽

2025/10/21

探索機率宇宙的下一站：10個特殊有趣的機率分布，兼論模型與現實的對話

2025/10/16

思考的藝術：奧卡姆剃刀——為何最簡單的解釋往往是最好的？

探討奧卡姆剃刀哲學原則，解釋其在資料科學和機器學習中如何轉化為「模型簡約原則」，以及闡述「過度擬合」現象。文章介紹了AIC和BIC兩個量化模型簡約的統計工具，並提供從哲學思維到實際應用的全面指南。

2025/10/16

思考的藝術：奧卡姆剃刀——為何最簡單的解釋往往是最好的？

2025/10/10

統計學中的世界觀：機率分佈，它在告訴我們什麼？

想像我們站在一間巨大的「數據遊樂場」裡。在這裡，所有現象——從丟一枚硬幣、買一張彩券，到研究人類的壽命、社會的收入分佈——其背後都有一套隱藏的「規則」在支配。這套規則，決定了哪些結果比較常見，哪些結果極為罕見。而這套規則的「說明書」，就是我們今天要探討的主角：機率分佈。

2025/10/10

統計學中的世界觀：機率分佈，它在告訴我們什麼？

你可能也想看

2024/05/27

2024/05/27

行銷人才培育基地 ThinkWithBlack

數據分析有兩不分析，你知道怎樣的數據是不需要花時間去看的嗎？

作為一名擁有多年經驗的數據分析師，我深知數據分析的重要性及其對企業決策的影響。然而，數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是：在數據量不足或缺乏流程優化目的時，進行數據分析的局限性。

#數據#流量#基礎

2024/06/14

行銷人才培育基地 ThinkWithBlack

數據分析有兩不分析，你知道怎樣的數據是不需要花時間去看的嗎？

#數據#流量#基礎

2024/06/14

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

JayRay 的沙龍

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python#Matplotlib#資料分析

2024/08/03

JayRay 的沙龍

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python#Matplotlib#資料分析

2024/08/03

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

數據分析與解讀隨著數據的爆炸式增長，能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術，如統計學、數據挖掘、機器學習等。然而，僅靠短時間的數據分析並不足以提供深入見解。要熟悉數據分析工具和技術，如統計學、數據挖掘和機器學習，可以從以下幾個方面入手：基礎知識的學習

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

果農的沙龍

如何用Python繪製群組直條圖

本文將介紹如何用Python繪製群組直條圖。

#python#資料分析#數據分析

2024/04/16

果農的沙龍

如何用Python繪製群組直條圖

本文將介紹如何用Python繪製群組直條圖。

#python#資料分析#數據分析

2024/04/16

JayRay 的沙龍

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

在資料分析過程中，透過衡量變數之間的線性或非線性關係，能有效探索數據集，篩選出重要特徵，並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性，以及利用互資訊評估變數之間的依賴程度，幫助資料科學家在建模過程中選擇適當的變數，提升模型效果。

#數據#資訊#模型

2024/08/07

JayRay 的沙龍

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

#數據#資訊#模型

2024/08/07

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

特徵工程是機器學習中的核心技術，通過將原始數據轉換為有意義的特徵，以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程，以幫助讀者有效利用特徵工程來優化機器學習模型表現。

#數據#模型#異常

2024/08/14

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

#數據#模型#異常

2024/08/14

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11