主成分分析(PCA,Principal Component Analysis)

更新 發佈閱讀 2 分鐘

主成分分析(PCA,Principal Component Analysis)是一種常用的線性降維技術,透過尋找數據中主要變異方向(主成分),將高維資料投影到較低維度的新空間中,以保留資料中最重要的資訊。

PCA的原理:

1. 數據中心化:先對數據做零均值化(每個特徵減去其均值)。

2. 計算協方差矩陣:反映各特徵間的線性關係與變異性。

3. 求特徵值與特徵向量:協方差矩陣的特徵向量代表主成分方向,對應的特徵值大小代表該方向的變異量大小。

4. 排序與選擇主成分:按特徵值大小排序,選擇前k個特徵向量作為新的基底。

5. 投影轉換:將原始數據投影到選定的主成分空間,完成降維。

PCA的用途和優點:

降維:減少特徵數量,降低計算成本。

去相關:主成分彼此正交,減少冗餘特徵。

資料視覺化:將高維資料映射到2D或3D便於分析。

噪聲過濾:保留主要變異,舍棄雜訊分量。

簡單比喻:

PCA就像將複雜資料沿著最重要的方向“壓扁”,使資料簡化但仍保留核心信息。

總結:

PCA通過計算協方差矩陣和特徵分解,找到原始數據中最重要的變異方向,將數據投影到低維空間實現有效降維,是機器學習和數據分析中重要的技術。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
31會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 (初級) AWS Certified AI Practitioner (AIF-C01) 經濟部 iPAS AI應用規劃師 數據分析 (中級)
2025/09/02
特徵縮放的常用方法主要有以下幾種: 最小最大縮放(Min-Max Scaling) 將特徵值縮放到固定範圍(通常是0到1之間),計算公式是 。這種方法適合數據分佈較均勻或需要映射到特定範圍的場合,但對極端值敏感。 標準化(Standardization) 將特徵值的平均數轉為0,標準差轉為
Thumbnail
2025/09/02
特徵縮放的常用方法主要有以下幾種: 最小最大縮放(Min-Max Scaling) 將特徵值縮放到固定範圍(通常是0到1之間),計算公式是 。這種方法適合數據分佈較均勻或需要映射到特定範圍的場合,但對極端值敏感。 標準化(Standardization) 將特徵值的平均數轉為0,標準差轉為
Thumbnail
2025/09/02
處理類別不平衡(Class Imbalance)是機器學習中常見且重要的問題,尤其在少數類樣本數量遠小於多數類時,模型容易偏向多數類,導致少數類識別效果差。常用的處理方法包括資料層面和算法層面技術。 常用處理類別不平衡方法: 1. 資料層面方法 • 過採樣(Oversampling)少數類

2025/09/02
處理類別不平衡(Class Imbalance)是機器學習中常見且重要的問題,尤其在少數類樣本數量遠小於多數類時,模型容易偏向多數類,導致少數類識別效果差。常用的處理方法包括資料層面和算法層面技術。 常用處理類別不平衡方法: 1. 資料層面方法 • 過採樣(Oversampling)少數類

2025/09/02
特徵選擇(Feature Selection)是機器學習中關鍵的一步,目的是從原始的特徵集中選出對目標預測最有用的子集,以提升模型性能、減少計算資源消耗和避免過擬合。常用的特徵選擇方法分為三大類: 常用特徵選擇方法: 1. 過濾器法(Filter Methods) • 不依賴具體模型,基於統
2025/09/02
特徵選擇(Feature Selection)是機器學習中關鍵的一步,目的是從原始的特徵集中選出對目標預測最有用的子集,以提升模型性能、減少計算資源消耗和避免過擬合。常用的特徵選擇方法分為三大類: 常用特徵選擇方法: 1. 過濾器法(Filter Methods) • 不依賴具體模型,基於統
看更多
你可能也想看
Thumbnail
Sunkronizo 的 Playful Heart 是一款帶著明亮果香與柔和木質調的甜感香水,特別適合星期四使用。前調活潑、尾韻沉靜,陪你從忙碌過渡到週末的輕鬆心情。適合喜歡果香、花果香調的女性,也很適合作為溫暖又有個性的送禮選擇。可於官網、Pinkoi 選購,11 月底起於臺中國家歌劇院寄售。
Thumbnail
Sunkronizo 的 Playful Heart 是一款帶著明亮果香與柔和木質調的甜感香水,特別適合星期四使用。前調活潑、尾韻沉靜,陪你從忙碌過渡到週末的輕鬆心情。適合喜歡果香、花果香調的女性,也很適合作為溫暖又有個性的送禮選擇。可於官網、Pinkoi 選購,11 月底起於臺中國家歌劇院寄售。
Thumbnail
根據美國電影協會(MPA)主辦的「串流服務如何推動臺灣創意經濟」論壇內容,深入探討串流平臺對臺灣影視產業的影響、數據分析、政府政策建議、內容國際化策略,以及臺灣與「韓流」的差距。文章提出 awwrated 在串流生態系中的潛在角色,強調數據、策略與自信是臺灣影視產業發展的關鍵。
Thumbnail
根據美國電影協會(MPA)主辦的「串流服務如何推動臺灣創意經濟」論壇內容,深入探討串流平臺對臺灣影視產業的影響、數據分析、政府政策建議、內容國際化策略,以及臺灣與「韓流」的差距。文章提出 awwrated 在串流生態系中的潛在角色,強調數據、策略與自信是臺灣影視產業發展的關鍵。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程
Thumbnail
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表為基礎,融合不同的資料欄位。 以product作為index,融合quarter_1,quarter_2,quarter_3,quarter_4 這四個欄位,並且重新命名為quarter,並且將數值欄位名稱重
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表為基礎,融合不同的資料欄位。 以product作為index,融合quarter_1,quarter_2,quarter_3,quarter_4 這四個欄位,並且重新命名為quarter,並且將數值欄位名稱重
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表為基礎,將資料表做樞紐轉換,垂直方向是月份,水平方向是不同的城市,而表格內容是該城市在某個月份的溫度。 題目的原文敘述 測試範例 Example 1: Input: +--------------+-
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表為基礎,將資料表做樞紐轉換,垂直方向是月份,水平方向是不同的城市,而表格內容是該城市在某個月份的溫度。 題目的原文敘述 測試範例 Example 1: Input: +--------------+-
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News