主成分分析(PCA,Principal Component Analysis)是一種常用的線性降維技術,透過尋找數據中主要變異方向(主成分),將高維資料投影到較低維度的新空間中,以保留資料中最重要的資訊。
PCA的原理:
1. 數據中心化:先對數據做零均值化(每個特徵減去其均值)。2. 計算協方差矩陣:反映各特徵間的線性關係與變異性。
3. 求特徵值與特徵向量:協方差矩陣的特徵向量代表主成分方向,對應的特徵值大小代表該方向的變異量大小。
4. 排序與選擇主成分:按特徵值大小排序,選擇前k個特徵向量作為新的基底。
5. 投影轉換:將原始數據投影到選定的主成分空間,完成降維。
PCA的用途和優點:
• 降維:減少特徵數量,降低計算成本。
• 去相關:主成分彼此正交,減少冗餘特徵。
• 資料視覺化:將高維資料映射到2D或3D便於分析。
• 噪聲過濾:保留主要變異,舍棄雜訊分量。
簡單比喻:
PCA就像將複雜資料沿著最重要的方向“壓扁”,使資料簡化但仍保留核心信息。
總結:
PCA通過計算協方差矩陣和特徵分解,找到原始數據中最重要的變異方向,將數據投影到低維空間實現有效降維,是機器學習和數據分析中重要的技術。