t-SNE(t-Distributed Stochastic Neighbor Embedding)是一種非線性降維技術,專門用於將高維數據映射到低維空間(通常是2D或3D),以便視覺化和理解數據的內部結構。
t-SNE的核心原理:
1. 高維空間的相似度計算• 使用高斯核(Gaussian kernel)計算每對高維點之間的條件概率,表示點 選擇點 作為鄰居的概率。
• 通過“困惑度”(Perplexity)參數,控制鄰域大小的影響範圍。
2. 低維空間的相似度定義
• 用自由度為1的學生t分布(t分布)計算低維點間的相似度,能有效減輕維度災難帶來的擁擠問題。
3. 優化目標與方法
• 通過最小化高維和低維空間中的相似度分布間的KL散度(Kullback-Leibler Divergence),讓低維表示盡可能保留高維的局部鄰域結構。
• 通常用梯度下降法進行迭代優化。
t-SNE的特點:
• 強調局部結構保持:保留資料點在高維空間上的鄰近關係。
• 非線性映射:捕捉更複雜的數據結構,優於線性降維方法如PCA。
• 多尺度顯示:在同一地圖中展現不同尺度的結構和群集分布。
• 適合視覺化:常用於資料探索,如揭示聚類結構和異常點。
簡單比喻:
t-SNE像是把複雜的高維資料用一張紙呈現出來,讓相似的點靠得近,不相似的點拉遠,看得更清楚。
總結:
t-SNE通過將高維數據的相似度轉換成概率分布,並在低維空間利用學生t分布保持鄰近關係,借助KL散度優化降維,是高維資料可視化的重要工具。