vocus logo

方格子 vocus

【特徵工程全攻略】模型不準?問題藏在資料裡!從數據清洗到特徵轉換的黃金法則 (中級)

更新 發佈閱讀 4 分鐘

很多人誤以為 AI 規劃師的工作就是每天鑽研高深的演算法,但真相往往比較骨感:我們有 80% 的時間都在跟「髒資料」搏鬥。

一、 數據藍圖:先看清楚你的「礦石」長什麼樣

在動手處理前,得先搞清楚手上的資料屬於哪一類。這決定了後續要動什麼樣的手術。

raw-image
  • 結構化數據: 就像 Excel 表格或 SQL 資料庫,每一列、每一行都整整齊齊。這是最方便分析的「乖寶寶」。
  • 半結構化數據: 像是 JSON 或 XML 檔案,雖然有標籤(Tags)告訴你這欄是什麼,但格式比較靈活,不會死板地對齊。
  • 非結構化數據: 圖片、影音、社群媒體的留言。這類資料最隨性,需要透過深度學習或 NLP 技術先轉化,模型才學得動。

這些資料的來源也很有學問。除了自家產品產生的紀錄,有時得靠網路爬蟲去抓取公開資訊,或是透過 API 與其他軟體系統交換數據。


二、 煉金第一步:數據清洗的排毒程序

拿到資料後,別急著丟進模型。沒經過清洗的資料就像帶泥的礦石,會讓模型「消化不良」。

1. 遺缺值的抉擇

資料欄位空白是常態。你可以選擇直接刪除,但這可能導致樣本量大減。聰明的做法是填補:利用平均數或中位數。

  • 規劃師筆記: 如果資料分佈很不平均(有極端值),請優先選擇中位數,才不會被那些「有錢人」拉高了整體的平均水平。

2. 離群值的處置

那些遠離群落的數據點,有時是輸入錯誤(例如年齡 -5 歲),有時則是深具意義的特殊訊號(例如金融詐欺的大額交易)。

  • 判斷準則: 透過箱形圖 (Box Plot) 找出異常點。如果確定是雜訊,就修正或剔除;如果是珍貴的異常訊號,則要保留並單獨標記。

三、 特徵轉換:把人類語言翻成機器的數字

AI 本質上只聽得懂數字。當資料裡出現「城市」、「顏色」或「等級」時,得幫機器做翻譯。

這裡有幾招常用的翻譯術:

  • 標籤編碼 (Label Encoding): 直接給類別編號(台北=0、台中=1、高雄=2)。適合有「順序感」的資料,如:初級、中級、高級。缺點是模型可能會誤以為 2 比 0 大。
  • 獨熱編碼 (One-Hot Encoding): 為每個類別開一個專屬欄位(只有 0 跟 1)。適合「沒有大小之分」的類別,能避免模型產生錯誤的權重判斷。
  • 目標編碼 (Target Encoding): 當類別太多(例如有幾百個鄉鎮市區)導致欄位爆炸時,改用該類別對應預測結果的「平均值」來代表它,能有效精簡空間。
  • 分箱 (Binning): 把年齡這類連續數字切成「青年、中年、老年」等區間。這能增加模型的穩定性,對抗極端值的偷襲。

四、 生存法則:特徵尺度的統一

這是新手最容易踩坑的地方。想像一下,模型正在處理兩個特徵:「年齡(0-100)」與「年薪(0-1,000,000)」。 如果不縮放,年薪的微小波動會完全蓋過年齡的變化。這就是「尺度霸凌」。

這會造成三個慘烈結果:

  1. 距離計算扭曲: 靠「距離」判斷相似度的模型(如 KNN 或 SVM),會完全被大數字牽著走。
  2. 梯度下降不穩: 模型在更新權重時會像酒駕一樣劇烈震盪,遲遲無法收斂到最佳解。
  3. 正則化偏差: 為了防止過度擬合的「處罰機制」,會不公平地針對數字小的特徵,讓它們失去發言權。

解藥如下:

  • Min-Max 正規化: 把數據通通壓縮到 0 與 1 之間。
  • Z-Score 標準化: 將數據轉為平均數 0、標準差 1 的分佈。確保每個特徵都在同一條起跑線上公平競爭。

結語:AI 規劃師的真實價值

數據處理不是簡單的體力活,而是一連串的決策。你要判斷何時補值、何時轉碼、何時縮放。這些前置作業做足了,後面的模型才能跑出真正的預測威力。

面對一個表現不佳的模型,先別急著更換複雜的演算法。回過頭去檢查你的數據煉金室,答案往往就藏在那些被忽視的原始特徵裡。

留言
avatar-img
iPAS自學路|備考軍火庫 & 白話筆記
237會員
72內容數
40 歲、非本科、iPAS AI 應用規劃師「初/中級雙證」持有。 這裡不談艱澀理論,只有實戰派的「備考軍火庫」。 1️⃣ 白話考點解析:把硬核技術變成人話。 2️⃣ 考前速記表:精準過濾資訊,只留重點。 3️⃣ 碎時高效得分:搭配頻道服用,通勤即超車。 讓 AI 證照成為你職場下半場的救命裝備。
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
本文介紹了 MLOps 的核心概念,包括模型部署、監控、資料與模型迭代管理,以及自動化測試與更新,並透過實際案例展示其在金融風控和雲端 API 部署中的應用。
Thumbnail
本文介紹了 MLOps 的核心概念,包括模型部署、監控、資料與模型迭代管理,以及自動化測試與更新,並透過實際案例展示其在金融風控和雲端 API 部署中的應用。
Thumbnail
本文探討監督式學習、非監督式學習、半監督式學習和強化式學習等機器學習模型的基礎概念、應用情境和差異,並涵蓋自監督式學習等其他學習方式。文中包含多個實際應用案例,並提供各種類型之間的比較表格,以利讀者理解和應用。
Thumbnail
本文探討監督式學習、非監督式學習、半監督式學習和強化式學習等機器學習模型的基礎概念、應用情境和差異,並涵蓋自監督式學習等其他學習方式。文中包含多個實際應用案例,並提供各種類型之間的比較表格,以利讀者理解和應用。
Thumbnail
簡短介紹常見的機器學習模型如邏輯迴歸、隨機森林、K-Means、Q-Learning、CNN等
Thumbnail
簡短介紹常見的機器學習模型如邏輯迴歸、隨機森林、K-Means、Q-Learning、CNN等
Thumbnail
機器學習(Machine Learning)是一種讓電腦從資料中學習並改進表現的技術,而無需人類逐一編寫具體指令。想像一下,你教一個小孩認識「貓」和「狗」,不是直接告訴他每張圖片的答案,而是給他看許多例子,讓他自己找出規律。 這個想法最早由Arthur Sam
Thumbnail
機器學習(Machine Learning)是一種讓電腦從資料中學習並改進表現的技術,而無需人類逐一編寫具體指令。想像一下,你教一個小孩認識「貓」和「狗」,不是直接告訴他每張圖片的答案,而是給他看許多例子,讓他自己找出規律。 這個想法最早由Arthur Sam
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News