【資料科學的數學基礎課|第7課】PCA 主成分分析是什麼?資料也能「整理行李箱」!

更新 發佈閱讀 4 分鐘

✍️ 文/未來的資料科學家練習生


假設你要出國旅行 ✈️

行李箱空間有限,怎麼裝下最多有用的東西?

這就是我們今天要學的技能:

👉 主成分分析 PCA(Principal Component Analysis)

📌 它可以幫助我們「減少資料維度」,但又「盡可能保留重要資訊」。


📦 一、為什麼要做降維?

我們常常會有一堆資料,每一筆都包含很多欄位(變數)。

但其實:

  • 有些欄位很像(例如身高和腿長)
  • 有些欄位沒什麼幫助(像是名字)

所以我們想這樣做:

✂️ 刪掉不重要的欄位 → 精簡資料 → 加快分析速度、提升模型效果!

這個動作就叫做「降維」。


🪄 二、PCA 怎麼幫我們做降維?

PCA 的邏輯就像幫資料「整理行李」,分成最精簡的幾個方向:

🔢 它的流程總共有 5 步驟


✅ Step 1:中心化資料(扣掉平均)

假設每個人都有數學、英文成績,我們先讓成績圍繞在平均數附近。

(這樣比較不會受到原始大小影響)


✅ Step 2:計算「協方差矩陣」

這一步看每個欄位之間的關係強不強。

📌 如果兩個欄位很同步變化(例如身高和體重),就有高「協方差」。


✅ Step 3:做特徵值分解

呼叫我們上篇的好朋友:

協方差矩陣 = 特徵向量 × 特徵值 × 反矩陣

這一步可以找出「資料主要的方向」。


✅ Step 4:選最大特徵值對應的特徵向量

特徵值越大,代表那個方向「越有代表性」。

我們可以只選前 1~2 個特徵向量(也叫「主成分」)來代表整筆資料。


✅ Step 5:資料投影到新空間(完成降維!)

把原本的資料「投影」到新的特徵向量上,

📉 維度變少了,但還是保留最多資訊!


raw-image



🧪 三、PCA 應用在哪?

  • 🖼️ 壓縮圖片資料(像素太多的圖)
  • 🧬 基因數據降維
  • 🤖 機器學習前的特徵選擇
  • 📈 數據視覺化(用 2D 顯示原本的高維資料)

🧠 四、生活比喻再複習一次!

資料分析師就像打包高手:

打包動作 對應數學步驟 衣服集中放一堆 中心化資料 確認哪些東西常一起用 協方差矩陣 決定最常用路線 特徵值分解 裝最重要的東西 保留主成分 行李縮到最小體積 降維完成!

🧠 小試身手:哪一個是正確的投影?

你有一群資料點大致斜斜分布,如下圖(如你前面看到的 PCA 圖示)。

主成分分析會將資料投影到「資料延展最廣的方向」,這個方向就是主成分 PC1。

請看下面三張圖,哪一張是把資料正確投影到主成分方向


🔢 選項:

A. 所有點都往 x 軸(水平)方向投影

B. 所有點都往主成分 PC1(斜斜的)方向投影 C. 所有點都往 y 軸(垂直)方向投影


✅ 正確答案:

B. 往 PC1 投影才是主成分分析的做法!


🧩 延伸問題(進階挑戰):

若資料點原本是分布在三維空間中,PCA 可以幫你:

A. 把它壓成一張圖片(2D)

B. 找到最有趣的方向觀察資料 C. 幫你刪掉無意義的資訊 D. 以上皆是

👉 答案是:D! 這正是 PCA 的神奇之處~


✨ 結語:降維不代表偷懶,而是更聰明地看資料!

PCA 是機器學習中最經典的降維方法,

它不是亂砍欄位,而是用數學找出最有代表性的方向

🔍 看懂 PCA,就能理解:

資料世界的真相,不一定藏在表面,而在「變化最大」的地方!


📮 下一篇你想了解哪種降維方法?留言告訴我吧!

留言
avatar-img
溫蒂的夢幻島航海日誌
1會員
19內容數
我是 Wendy,一位相信知識可以讓世界更美好的學習者。 白天是品保工程師,晚上是資料筆記的整理者。 正在深入統計與品質管理,也持續探索資料科學與商業邏輯的連結。 偶爾也會記錄家庭經營、親子對話與自由工作者的嘗試。 每一篇文章,都是給自己的備忘錄,也希望成為你前行路上的地圖。
2025/08/04
✍️ 文/未來的資料科學家練習生 你有沒有發現一件事? 拍照時,角度對了,臉就小一圈 整理資料時,有些數據方向「特別有代表性」 做模型時,我們常想抓出「真正重要的變化方向」 這些,其實都跟今天要介紹的主角有關── 👉 特徵值(Eigenvalue)與特徵向量(Eigenvector)
Thumbnail
2025/08/04
✍️ 文/未來的資料科學家練習生 你有沒有發現一件事? 拍照時,角度對了,臉就小一圈 整理資料時,有些數據方向「特別有代表性」 做模型時,我們常想抓出「真正重要的變化方向」 這些,其實都跟今天要介紹的主角有關── 👉 特徵值(Eigenvalue)與特徵向量(Eigenvector)
Thumbnail
2025/08/04
這篇文章介紹了線性代數中幾種重要的向量:單位向量、正交向量、正交矩陣和正交單位向量,並解釋了它們在資料科學和機器學習中的應用,例如資料標準化、維度獨立性保證、資料轉換和模型優化。
Thumbnail
2025/08/04
這篇文章介紹了線性代數中幾種重要的向量:單位向量、正交向量、正交矩陣和正交單位向量,並解釋了它們在資料科學和機器學習中的應用,例如資料標準化、維度獨立性保證、資料轉換和模型優化。
Thumbnail
2025/08/04
這篇文章介紹資料科學中四種常見且重要的矩陣:單位矩陣、對稱矩陣、反矩陣和奇異矩陣,並以淺顯易懂的比喻說明其特性和用途,幫助讀者快速理解矩陣在機器學習、影像處理和推薦系統中的應用。
2025/08/04
這篇文章介紹資料科學中四種常見且重要的矩陣:單位矩陣、對稱矩陣、反矩陣和奇異矩陣,並以淺顯易懂的比喻說明其特性和用途,幫助讀者快速理解矩陣在機器學習、影像處理和推薦系統中的應用。
看更多
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本文介紹瞭如何使用 Python pandas 進行資料分析,包括如何使用 corr() 函數針對數字類型的欄位進行分析,以及如何刪除不需要的欄位和取得想要的小數位數。
Thumbnail
本文介紹瞭如何使用 Python pandas 進行資料分析,包括如何使用 corr() 函數針對數字類型的欄位進行分析,以及如何刪除不需要的欄位和取得想要的小數位數。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News