44/100 PCA 降維 📉 主成分分析，讓高維度數據變得可視化！

Hansen W

發佈於AI科技機器學習修煉坊

2025/05/28 更新2025/05/28 發佈閱讀 7 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部：《機器學習 —— AI 智慧的啟航》

44/100 第五週：非監督學習

44. PCA 降維 📉 主成分分析，讓高維度數據變得可視化！

________________________________________

🔎 一、什麼是 PCA（Principal Component Analysis）？

• PCA 是一種統計技術，屬於非監督學習（Unsupervised Learning）

• 核心目標：找出資料中「變異量最大」的方向（主成分）

• 透過降維，讓高維度資料變得簡單、易解讀、可視化

• 無需標籤資料，純粹靠數據間的關聯進行運算

________________________________________

🌟 二、PCA 的核心概念

主成分分析（PCA）是一種常用的降維技術，其核心在於找出資料中變異量最大的方向，稱為主成分（PC），以少數這些無相關的向量來代表原始資料。透過這種方式，PCA 能夠在保留大部分資訊的前提下，去除不重要或低變異的維度，進而消除特徵間的重複與雜訊，提高資料的可解釋性與處理效率。

________________________________________

🚀 三、為什麼要用 PCA？

✅ 解決「維度詛咒」問題

✅ 讓資料容易可視化（2D/3D）

✅ 提高機器學習模型效率與效果

✅ 幫助理解資料內部結構與關聯性

✅ 去除高維數據中的雜訊與重複資訊

________________________________________

🛠 四、PCA 的運作流程（數學概念簡化版）

1️⃣ 資料標準化（Z-score） → 讓特徵量級一致

2️⃣ 計算共變異數矩陣 → 分析變數間關聯性

3️⃣ 特徵值分解 → 算出主成分（最大變異方向）

4️⃣ 選擇前k個主成分 → 保留最大資訊量

5️⃣ 數據轉換投影 → 降維後的新資料集（Reduced Data Set）

________________________________________

📈 五、範例 - Iris 鳶尾花資料集

python

from sklearn.decomposition import PCA

from sklearn.datasets import load_iris

import matplotlib.pyplot as plt

import matplotlib

# 設定支援中文的字型

matplotlib.rcParams['font.family'] = 'Microsoft JhengHei'

# 載入資料

iris = load_iris()

X = iris.data

y = iris.target

# 執行PCA降維

pca = PCA(n_components=2)

X_pca = pca.fit_transform(X)

# 視覺化

plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis')

plt.xlabel('主成分1 (PC1)')

plt.ylabel('主成分2 (PC2)')

plt.title('PCA降維後的Iris資料視覺化')

plt.show()

🔍 這段程式碼展示了如何使用 Scikit-learn 的 PCA（主成分分析）對經典的 Iris 鳶尾花資料集進行降維處理，並使用 Matplotlib 將結果視覺化。

程式先載入含有四個特徵的原始資料，接著透過 PCA 將其降為二維，保留資料中最主要的變異性。為了解決中文標籤顯示為亂碼或方框的問題，程式特別指定使用「Microsoft JhengHei」字型。最後，繪製出以主成分1 和主成分2 為座標軸的二維散佈圖，並以不同顏色代表三種類別的花，清楚展現了降維後各類別的分佈情形。這是一個直觀又實用的範例，適合初學者理解降維與資料視覺化的概念。

✅ 效果說明：

• 原本4維的花萼、花瓣特徵壓縮到2維

• 一眼就看出三種鳶尾花的聚類分布

• 資料結構變得清楚且易於解釋

________________________________________

📊 六、PCA 常見應用領域

✅ 數據壓縮與可視化

✅ 特徵萃取與選取（Feature Extraction）

✅ 去除雜訊（Denoising）

✅ 影像處理（如人臉辨識）

✅ 基因數據分析、生物資訊學

✅ 股票市場、財務金融資料分析

________________________________________

📉 七、PCA 的優缺點

優點缺點

✅ 大幅降低運算成本 ❌ 主成分不具備實際意義（難解釋）

✅ 強化模型效能與速度 ❌ 無法處理非線性資料結構

✅ 去除雜訊，提升資料品質 ❌ 降維後可能遺失部分資訊

✅ 幫助可視化與理解數據 ❌ 特徵需標準化，否則影響結果

________________________________________

🎯 八、實務小技巧

• 若資料特徵差距大，務必先做標準化

• 常用解釋變異量比率（Explained Variance Ratio）決定保留幾個主成分

• 可搭配 t-SNE、UMAP 等降維工具做進一步非線性降維與視覺化

________________________________________

🌈 九、結論與總結

✔ PCA 是處理高維度資料的重要武器

✔ 不僅能減少資料維度，更能讓我們「看見」原本隱藏的規律與結構

✔ 是後續進行聚類（Clustering）、分類（Classification）等任務的重要前處理步驟

________________________________________

📌 一句話精華

✅ PCA = 把高維度的世界壓縮成一張「能看懂的地圖」！

________________________________________

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

459內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/05/28

43/100 DBSCAN 🔍 密度聚類演算法，能找出不同密度的數據群！

DBSCAN 透過 ε 半徑與 MinPts 判斷密度，無須事先設定群數，可自動偵測任意形狀群集並標記離群點，對含雜訊或非線性分布的地理、天文、社群資料特別實用；但 ε、MinPts 需細調，且在高維度時距離計算衰減，效果有限。

2025/05/28

43/100 DBSCAN 🔍 密度聚類演算法，能找出不同密度的數據群！

2025/05/28

42/100 階層式聚類 🏗 像家族樹一樣逐層分組，適合分析層級關係！

階層式聚類以計算樣本距離，從「一點一群」逐步合併成樹狀結構；免先設定 K 值、能直觀呈現親疏遠近，適用基因分析、客戶分層與社群關係探索，但耗時、對離群值敏感且無法回溯合併。

2025/05/28

42/100 階層式聚類 🏗 像家族樹一樣逐層分組，適合分析層級關係！

2025/05/28

41/100 K-Means 聚類 🎯 把資料分成 K 組，適用於客戶分群與圖像壓縮！

K-Means 是經典非監督聚類：AI 依據資料相似度自動將樣本分成 K 群，流程「指派→更新」迭代至收斂。速度快、易實作，適合客戶分群與圖像壓縮；但須先選 K，對初始中心與離群值敏感，可用 Elbow 曲線或 Silhouette 分數判斷最佳 K。

2025/05/28

41/100 K-Means 聚類 🎯 把資料分成 K 組，適用於客戶分群與圖像壓縮！

看更多

你可能也想看

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

雙11購物節準備開跑，蝦皮推出超多優惠，與你分享實際入手的收納好物，包括貨櫃收納箱、真空收納袋、可站立筆袋等，並分享如何利用蝦皮分潤計畫，一邊購物一邊賺取額外收入，讓你買得開心、賺得也開心！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

分享個人在新家裝潢後，精選 5 款蝦皮上的實用家居好物，包含客製化層架、MIT 地毯、沙發邊桌、分類垃圾桶及寵物碗架，從尺寸、功能到價格都符合需求，並提供詳細開箱心得與購買建議。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

RPAI 數位優化器

企業變身AI企業的前兩步：數位優化與數位轉型

企業需關注數位優化和數位轉型以提高競爭力。數位優化強調提升效率和效果，數位轉型則重塑商業模式並超越優化，包含商業模式創新、數據驅動的決策和數位創新文化。該文章涵蓋了這些議題，並期待更多關於 RPA + AI 與數位轉型的最新趨勢與觀點。

#數位轉型#數位#企業

2024/06/18

RPAI 數位優化器

企業變身AI企業的前兩步：數位優化與數位轉型

#數位轉型#數位#企業

2024/06/18

曹滴掉~ 寬廣vs渺小的沙龍

閱讀書評：《AI世界的底層邏輯與生存法則》

作者認為AI，它不特屬於哪一個產業，在一定時間成熟之後，它充斥你我生活之中，就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡？當這變化還很劇烈時，過早投入反而浪費時間與成本，所以作者的洞見是：什麼是你我最珍貴的價值？

#AI#人工智慧#產業發展

2024/06/14

曹滴掉~ 寬廣vs渺小的沙龍

閱讀書評：《AI世界的底層邏輯與生存法則》

#AI#人工智慧#產業發展

2024/06/14

廣告雜誌

黃仁勳風暴(一)：生成式AI強大潛能！AWS與NVIDIA Project Ceiba超級AI運算平台加速創新

在科技發展的浪潮中，生成式AI無疑是引領未來的關鍵力量。透過深度學習技術，AI系統能夠從大量資料中發掘規律，並創造出全新的內容，無論是文字、圖像、音頻還是視頻，都可以在AI的加持下重新定義。

#黃仁勳#AWS#NVIDIA

2024/06/06

廣告雜誌

黃仁勳風暴(一)：生成式AI強大潛能！AWS與NVIDIA Project Ceiba超級AI運算平台加速創新

#黃仁勳#AWS#NVIDIA

2024/06/06

期貨選擇權交易紀錄心得交流

NVIDIA 黃仁勳 - AI演講即時摘要_元大證券

NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命（個人紀錄用） 🇺🇸Omniverse 就是未來集大成，而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低，提出「運算通膨」概念

#NVIDIA#AI人工智慧#革命

2024/06/03

期貨選擇權交易紀錄心得交流

NVIDIA 黃仁勳 - AI演講即時摘要_元大證券

2024/06/03

AI PC 法人這樣看

2024/05/24

AI PC 法人這樣看

2024/05/24

筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC，6/18推出，晶片NPU算力在40 TOPS以上， - 裝置有連動GPT-4o，這部分的功能還是要連上網；Copilot功能下放到邊緣端。 - recall功能，可以把螢

2024/05/23

每日發車

筆記-股癌-24.05.22

2024/05/23

易樂的沙龍

AI時代: 無損編碼自由轉換和軟體定義硬件

本文章探討了多智能體系統（MAS）在生成式AI領域中的應用，以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響，並提供了有關GenAI的一些額外信息。

#人工智能#SSD#模型

2024/04/21

易樂的沙龍

AI時代: 無損編碼自由轉換和軟體定義硬件

#人工智能#SSD#模型

2024/04/21

D&Y熊繪生的沙龍

日常交易手札｜AI=晶片x電力x？｜驅動AI需要的要素

電電公會：拚AI 要解決供電問題 Google論文搜尋引擎｜論文深造的影響力 2024 GenAI不斷的刺激各種層面的應用，有發現生活中有什麼實質現況正……腦力激盪……

#電力#發電#AI應用

2024/03/30

D&Y熊繪生的沙龍

日常交易手札｜AI=晶片x電力x？｜驅動AI需要的要素

#電力#發電#AI應用

2024/03/30

凱文馬拉穆の雪橇犬星球

NVIDIA 2024 GTC 大會重點整理

NVIDIA的Blackwell計算平台代表著實時生成式AI應用的重大進步，旨在滿足跨行業挑戰。此平台提升了計算效能，促進了AI在實體世界的應用，並對從自動駕駛到醫療診斷等多個領域產生了深遠影響。NVIDIA 黃仁勳的願景是將AI技術從虛擬世界帶入現實，為創新開闢新道路，一個更加智慧和互聯的未來。

#Blackwell#NVIDIA#黃仁勳

2024/03/25

凱文馬拉穆の雪橇犬星球

NVIDIA 2024 GTC 大會重點整理

#Blackwell#NVIDIA#黃仁勳

2024/03/25

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News