44/100 PCA 降維 📉 主成分分析,讓高維度數據變得可視化!

更新於 發佈於 閱讀時間約 7 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》


44/100 第五週:非監督學習


44. PCA 降維 📉 主成分分析,讓高維度數據變得可視化!


________________________________________


🔎 一、什麼是 PCA(Principal Component Analysis)?


PCA 是一種統計技術,屬於非監督學習(Unsupervised Learning)

核心目標:找出資料中「變異量最大」的方向(主成分)

透過降維,讓高維度資料變得簡單、易解讀、可視化

無需標籤資料,純粹靠數據間的關聯進行運算


________________________________________


🌟 二、PCA 的核心概念


主成分分析(PCA)是一種常用的降維技術,其核心在於找出資料中變異量最大的方向,稱為主成分(PC),以少數這些無相關的向量來代表原始資料。透過這種方式,PCA 能夠在保留大部分資訊的前提下,去除不重要或低變異的維度,進而消除特徵間的重複與雜訊,提高資料的可解釋性與處理效率。

________________________________________


🚀 三、為什麼要用 PCA?


✅ 解決「維度詛咒」問題

✅ 讓資料容易可視化(2D/3D)

✅ 提高機器學習模型效率與效果

✅ 幫助理解資料內部結構與關聯性

✅ 去除高維數據中的雜訊與重複資訊

________________________________________


🛠 四、PCA 的運作流程(數學概念簡化版)


1️⃣ 資料標準化(Z-score) → 讓特徵量級一致

2️⃣ 計算共變異數矩陣 → 分析變數間關聯性

3️⃣ 特徵值分解 → 算出主成分(最大變異方向)

4️⃣ 選擇前k個主成分 → 保留最大資訊量

5️⃣ 數據轉換投影 → 降維後的新資料集(Reduced Data Set)

________________________________________


📈 五、範例 - Iris 鳶尾花資料集


python


from sklearn.decomposition import PCA

from sklearn.datasets import load_iris

import matplotlib.pyplot as plt

import matplotlib


# 設定支援中文的字型

matplotlib.rcParams['font.family'] = 'Microsoft JhengHei'


# 載入資料

iris = load_iris()

X = iris.data

y = iris.target


# 執行PCA降維

pca = PCA(n_components=2)

X_pca = pca.fit_transform(X)


# 視覺化

plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis')

plt.xlabel('主成分1 (PC1)')

plt.ylabel('主成分2 (PC2)')

plt.title('PCA降維後的Iris資料視覺化')

plt.show()


🔍 這段程式碼展示了如何使用 Scikit-learn 的 PCA(主成分分析)對經典的 Iris 鳶尾花資料集進行降維處理,並使用 Matplotlib 將結果視覺化。


程式先載入含有四個特徵的原始資料,接著透過 PCA 將其降為二維,保留資料中最主要的變異性。為了解決中文標籤顯示為亂碼或方框的問題,程式特別指定使用「Microsoft JhengHei」字型。最後,繪製出以主成分1 和 主成分2 為座標軸的二維散佈圖,並以不同顏色代表三種類別的花,清楚展現了降維後各類別的分佈情形。這是一個直觀又實用的範例,適合初學者理解降維與資料視覺化的概念。


✅ 效果說明:


原本4維的花萼、花瓣特徵壓縮到2維

一眼就看出三種鳶尾花的聚類分布

資料結構變得清楚且易於解釋

________________________________________


📊 六、PCA 常見應用領域


✅ 數據壓縮與可視化

✅ 特徵萃取與選取(Feature Extraction)

✅ 去除雜訊(Denoising)

✅ 影像處理(如人臉辨識)

✅ 基因數據分析、生物資訊學

✅ 股票市場、財務金融資料分析

________________________________________


📉 七、PCA 的優缺點


優點 缺點

✅ 大幅降低運算成本 ❌ 主成分不具備實際意義(難解釋)

✅ 強化模型效能與速度 ❌ 無法處理非線性資料結構

✅ 去除雜訊,提升資料品質 ❌ 降維後可能遺失部分資訊

✅ 幫助可視化與理解數據 ❌ 特徵需標準化,否則影響結果

________________________________________


🎯 八、實務小技巧


若資料特徵差距大,務必先做 標準化

常用解釋變異量比率(Explained Variance Ratio) 決定保留幾個主成分

可搭配 t-SNE、UMAP 等降維工具做進一步非線性降維與視覺化

________________________________________


🌈 九、結論與總結


✔ PCA 是處理高維度資料的重要武器

✔ 不僅能減少資料維度,更能讓我們「看見」原本隱藏的規律與結構

✔ 是後續進行聚類(Clustering)、分類(Classification)等任務的重要前處理步驟

________________________________________


📌 一句話精華

✅ PCA = 把高維度的世界壓縮成一張「能看懂的地圖」!

________________________________________




留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
3會員
106內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/05/28
DBSCAN 透過 ε 半徑與 MinPts 判斷密度,無須事先設定群數,可自動偵測任意形狀群集並標記離群點,對含雜訊或非線性分布的地理、天文、社群資料特別實用;但 ε、MinPts 需細調,且在高維度時距離計算衰減,效果有限。
Thumbnail
2025/05/28
DBSCAN 透過 ε 半徑與 MinPts 判斷密度,無須事先設定群數,可自動偵測任意形狀群集並標記離群點,對含雜訊或非線性分布的地理、天文、社群資料特別實用;但 ε、MinPts 需細調,且在高維度時距離計算衰減,效果有限。
Thumbnail
2025/05/28
階層式聚類以計算樣本距離,從「一點一群」逐步合併成樹狀結構;免先設定 K 值、能直觀呈現親疏遠近,適用基因分析、客戶分層與社群關係探索,但耗時、對離群值敏感且無法回溯合併。
Thumbnail
2025/05/28
階層式聚類以計算樣本距離,從「一點一群」逐步合併成樹狀結構;免先設定 K 值、能直觀呈現親疏遠近,適用基因分析、客戶分層與社群關係探索,但耗時、對離群值敏感且無法回溯合併。
Thumbnail
2025/05/28
K-Means 是經典非監督聚類:AI 依據資料相似度自動將樣本分成 K 群,流程「指派→更新」迭代至收斂。速度快、易實作,適合客戶分群與圖像壓縮;但須先選 K,對初始中心與離群值敏感,可用 Elbow 曲線或 Silhouette 分數判斷最佳 K。
Thumbnail
2025/05/28
K-Means 是經典非監督聚類:AI 依據資料相似度自動將樣本分成 K 群,流程「指派→更新」迭代至收斂。速度快、易實作,適合客戶分群與圖像壓縮;但須先選 K,對初始中心與離群值敏感,可用 Elbow 曲線或 Silhouette 分數判斷最佳 K。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
企業需關注數位優化和數位轉型以提高競爭力。數位優化強調提升效率和效果,數位轉型則重塑商業模式並超越優化,包含商業模式創新、數據驅動的決策和數位創新文化。該文章涵蓋了這些議題,並期待更多關於 RPA + AI 與數位轉型的最新趨勢與觀點。
Thumbnail
企業需關注數位優化和數位轉型以提高競爭力。數位優化強調提升效率和效果,數位轉型則重塑商業模式並超越優化,包含商業模式創新、數據驅動的決策和數位創新文化。該文章涵蓋了這些議題,並期待更多關於 RPA + AI 與數位轉型的最新趨勢與觀點。
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
電電公會:拚AI 要解決供電問題 Google論文搜尋引擎|論文深造的影響力 2024 GenAI不斷的刺激各種層面的應用,有發現生活中有什麼實質現況正……腦力激盪……
Thumbnail
電電公會:拚AI 要解決供電問題 Google論文搜尋引擎|論文深造的影響力 2024 GenAI不斷的刺激各種層面的應用,有發現生活中有什麼實質現況正……腦力激盪……
Thumbnail
NVIDIA的Blackwell計算平台代表著實時生成式AI應用的重大進步,旨在滿足跨行業挑戰。此平台提升了計算效能,促進了AI在實體世界的應用,並對從自動駕駛到醫療診斷等多個領域產生了深遠影響。NVIDIA 黃仁勳的願景是將AI技術從虛擬世界帶入現實,為創新開闢新道路,一個更加智慧和互聯的未來。
Thumbnail
NVIDIA的Blackwell計算平台代表著實時生成式AI應用的重大進步,旨在滿足跨行業挑戰。此平台提升了計算效能,促進了AI在實體世界的應用,並對從自動駕駛到醫療診斷等多個領域產生了深遠影響。NVIDIA 黃仁勳的願景是將AI技術從虛擬世界帶入現實,為創新開闢新道路,一個更加智慧和互聯的未來。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News