📚 iPAS AI 應用規劃師(中級):快速重點整理 - 科目三 - L23301 數據準備與特徴工程

cici-avatar-img
發佈於AI
更新 發佈閱讀 5 分鐘

🌟 核心觀念一:資料清理 (Data Cleaning) ── 模型的地基

資料清理是所有特徵工程的第一步,沒有乾淨的資料,就沒有準確的模型。這部分的考點通常落在「如何根據情境選擇處理方式」。

  • 缺失值處理 (Missing Values):
    • 刪除法 (Deletion): 只有在缺失比例極低,且確定刪除不會造成資料偏差時才能使用。
    • 填補法 (Imputation):
      • 統計填補: 使用均值、中位數或眾數。簡單快速,但可能會降低資料變異性。
      • 模型填補: 利用 K 最近鄰 (KNN) 或迴歸模型,根據特徵相似度來補全遺失值,精確度較高。
    • 缺失指標編碼: 新增一個欄位標示「是否缺失」,這在樹狀模型中非常有用,能讓模型學習到「缺失本身可能代表的隱含意義」。
  • 異常值偵測與處理 (Outlier Detection):
    • 偵測方法: 統計上常考 Z 分數 (Z-score) 或四分位距 (IQR);機器學習方法則愛考 Isolation Forest (孤立森林) 或 LOF(本地離群因子)。
    • 處理策略: 可以選擇刪除、截尾 (Cap,限制在上下邊界內),或是將異常值保留作為特徵 (例如在信用卡盜刷偵測中,異常值就是我們要找的目標!)。
  • 資料一致性: 記得統一數據單位與格式(如日期時間的轉換),並排除重複樣本。

🌟 核心觀念二:特徵縮放與轉換 (Scaling & Transformation)

不同的特徵往往有不同的單位與量級 (例如:年齡是 20-80 歲,但年薪可能是幾十萬到幾百萬)。如果直接丟給基於梯度下降或距離計算的模型 (如 KNN、SVM、神經網路),模型會嚴重偏誤。

  • 資料尺度調整 (Scaling):
    • Min-Max Normalization (最小-最大正規化): 將數值線性縮放至 0~1 區間。缺點是對極端值非常敏感。
    • Z-score Standardization (標準化): 將數值轉換為平均值為 0、標準差為 1 的常態分佈。是實務上最常用的方法。
    • Robust Scaling (穩健標準化): 使用中位數與 IQR 進行縮放。考題常考!當資料有很多離群值時,選它就對了。
  • 分佈轉換 (Distribution Transformation):
    • 當資料呈現嚴重偏態 (例如右偏的收入分佈) 時,常使用對數轉換 (Log Transform) 來降低極端值影響。
    • 進階考點可能會提到 Box-Cox 或 Yeo-Johnson 轉換,用來將資料自動近似常態化。

🌟 核心觀念三:類別型資料處理 (Categorical Encoding)

機器學習模型只看得懂數字,看不懂「台北」、「男/女」這種文字,所以我們必須進行編碼。

  • Label Encoding (標籤編碼): 轉換為整數 (0, 1, 2...)。注意陷阱:只適用於有「順序關係 (Ordinal)」的類別 (如:教育程度、VIP 等級)。
  • One-hot Encoding (獨熱編碼): 為每個類別新增一個 0/1 欄位。適用於無序類別。缺點:如果類別很多,會造成「維度災難 (Curse of Dimensionality)」與記憶體消耗。
  • Target Encoding (目標/平均編碼): 用該類別在目標變數上的平均值來取代。非常適合處理高基數 (類別數量極多) 的變數,能保留關聯性且不造成維度爆炸。

🌟 核心觀念四:特徵選擇與降維 (Feature Selection & Dimensionality Reduction)

當特徵太多時,會拉長訓練時間並造成過度擬合 (Overfitting)。

  • 特徵選擇 (挑選最棒的子集):
    • Filter (過濾法): 利用統計檢定 (如 Pearson 相關係數、卡方檢定)。速度快,但不考慮模型特性。
    • Wrapper (包裝法): 像遞迴特徵消除 (RFE),直接用模型表現來篩選。精準但計算成本極高。
    • Embedded (嵌入法): 在訓練過程中自動完成選擇,如 Lasso 迴歸 (L1 正則化) 或是樹狀模型的特徵重要性。
  • 降維技術 (將高維壓縮至低維):
    • PCA (主成分分析): 線性降維霸主。透過線性變換找出能最大化資料變異的方向 (主成分)。
    • LDA (線性判別分析): LDA 是有監督學習,目標是讓同類更集中、不同類更分離。
    • t-SNE / UMAP: 非線性降維方法。考試常考觀念:它們超適合用來做高維資料的「視覺化探索」,但不適合直接用於預測建模。


透過預備 iPAS AI 應用規劃師 (中級) 考試,加強 AI 知識。
※ 內容由 AI 產製

留言
avatar-img
喬西的數位跨域日常
0會員
24內容數
AI / 行銷 / 程式 / 設計 / 管理 / 閱讀
你可能也想看
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
考試,是每個人人生中一定都會遇到的檢測,不管是期中考、期末考、國中會考、大學聯考,還是以後要當公務人員的考試,大家一定都想要考個好成績,那要怎麼準備要考試的範圍呢? 有人瘋狂刷題、也有人翻教科書,看完後,再去寫複習卷,每個人都有自己的方式,而我有自己創一個考試歌「加油
Thumbnail
考試,是每個人人生中一定都會遇到的檢測,不管是期中考、期末考、國中會考、大學聯考,還是以後要當公務人員的考試,大家一定都想要考個好成績,那要怎麼準備要考試的範圍呢? 有人瘋狂刷題、也有人翻教科書,看完後,再去寫複習卷,每個人都有自己的方式,而我有自己創一個考試歌「加油
Thumbnail
真的不想長大,如果能像花的生長時間一樣慢慢長大那該有多好? 最近要期中考,我媽媽不懂我的心,給了壓力:考試沒考好,就一個月不用手機。
Thumbnail
真的不想長大,如果能像花的生長時間一樣慢慢長大那該有多好? 最近要期中考,我媽媽不懂我的心,給了壓力:考試沒考好,就一個月不用手機。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
耶~我們考完試了,一群學生一同發出同樣的聲響。不過自從升上新的年級之後,就沒那麼快樂、輕鬆了,每天都在趕課,就深怕自己跟不上"每位學生有個職責,就是要複習功課或者寫自修,而老師的職責,是要教好學生" 假如我們寫在多的自修、評量、測驗卷、複習卷,也沒辦法考出自再好的成績,因為出題不會只出這些在平常上課
Thumbnail
耶~我們考完試了,一群學生一同發出同樣的聲響。不過自從升上新的年級之後,就沒那麼快樂、輕鬆了,每天都在趕課,就深怕自己跟不上"每位學生有個職責,就是要複習功課或者寫自修,而老師的職責,是要教好學生" 假如我們寫在多的自修、評量、測驗卷、複習卷,也沒辦法考出自再好的成績,因為出題不會只出這些在平常上課
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
我發現是自己要用以毒攻毒的方式 再次去經驗大考 震盪出自己深層深層的不安、脆弱、批判、怨恨 所有類似於魔性的狀態 - 出發前我什麼也沒帶 媽媽說,你至少要帶筆吧 阿心說,你至少要帶筆吧 有的 我帶了17年前基測用的2B鉛筆 我帶了當時戴的手
Thumbnail
我發現是自己要用以毒攻毒的方式 再次去經驗大考 震盪出自己深層深層的不安、脆弱、批判、怨恨 所有類似於魔性的狀態 - 出發前我什麼也沒帶 媽媽說,你至少要帶筆吧 阿心說,你至少要帶筆吧 有的 我帶了17年前基測用的2B鉛筆 我帶了當時戴的手
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News