線性判別分析(LDA,Linear Discriminant Analysis)是一種監督式學習方法,主要用於分類問題及降維。LDA旨在通過線性組合特徵,使同一類別的樣本投影點盡可能接近,而不同類別的樣本投影點之間盡可能分開。
LDA的基本原理:
• 計算類內散布矩陣(衡量同類數據的變異程度)與類間散布矩陣(衡量不同類均值間的距離)。• 尋找一組最佳線性投影,使得類間散度最大化,類內散度最小化。
• 根據該投影線(或超平面)對新數據進行分類。
LDA實現過程:
1. 對數據按類別計算均值向量和散佈矩陣。
2. 計算類內散布矩陣 和類間散布矩陣 。
3. 求解廣義特徵值問題 ,特徵向量即為投影方向。
4. 將數據投影到特徵向量空間,完成降維與分類。
LDA的特點與應用:
• 適用於多類別分類問題。
• 需要假設各類數據服從高斯分布且具有相同協方差矩陣。
• 可用於降維,保留分類資訊,提升後續分類器性能。
• 常用於人臉識別、文字識別、金融風險評估等領域。
與PCA的比較:
• PCA是無監督方法,目標是最大化投影後的數據變異性,與類別無關。
• LDA是監督方法,關注類別分離,最大化類間方差且最小化類內方差。
簡單比喻:
LDA就像把不同顏色的球投影到一條線上,讓同色球聚在一起,不同顏色的球分開,方便分辨。
總結:
LDA透過最大化類間差異與最小化類內差異的線性投影,用於多類別分類和降維,是統計與機器學習中重要的監督式方法。