方格子 vocus

《從零開始的資料科學筆記》Day#21: 機器學習進階技巧三

Ethan伊森

發佈於《從零開始的資料科學筆記》

2025/11/26 更新2025/11/22 發佈閱讀 4 分鐘

🧲 特徵轉換方法

特徵轉換是調整數值型特徵分布形態的過程，幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以：

改善數據分布：使偏斜分布更加對稱
降低異常值影響：減少極端值對模型的干擾
捕捉非線性關係：讓線性模型可以學習複雜模式
提高訓練穩定性：加速梯度下降收斂過程

對數變換 (Log Transformation)

對數變換可以有效壓縮大範圍的數值，使分布更加均勻，是處理右偏（正偏）數據的常用方法。

適用場景：
- 高度右偏（正偏）數據，如收入、房價、人口- 數據範圍跨越多個數量級- 存在極端異常值的特徵- 呈指數增長的數據
優缺點：
✅ 有效壓縮大範圍值，保留小範圍值的差異
✅ 降低極端值影響，穩定模型訓練
✅ 使乘法關係轉換為加法關係（log(xy) = log(x) + log(y)）
❌ 不適用於負值和零值（需添加常數）
❌ 可能過度壓縮大值區域的差異
❌ 轉換後特徵失去原始尺度的直觀解釋性

平方根變換 (Square Root Transformation)

平方根變換是比對數變換更溫和的壓縮方法，適用於中度偏斜的數據。

適用場景：
- 中度右偏（正偏）數據
- 計數型數據（如事件頻率、出現次數）
- 比例型數據（如百分比）
- 數據範圍相對較小且全部為非負值
優缺點：
- ✅ 比對數變換更溫和，保留更多原始數據特性
- ✅ 對於中等範圍的數據更有效
- ✅ 計算簡單，容易理解
- ✅ 可用於零值（不需添加常數）
- ❌ 不適用於極度偏斜的分布
- ❌ 不適用於負值（需添加常數）
- ❌ 對大值的壓縮效果低於對數變換

多項式特徵構造 (Polynomial Features)

多項式特徵構造通過創建原始特徵的高階組合，使線性模型能夠捕捉數據中的非線性關係。

對於特徵 X₁, X₂，可創建：

X₁², X₂² (二次項)
X₁X₂ (交互項)
X₁³, X₂³ (三次項) 等

適用場景：
- 使用線性模型處理非線性關係
- 特徵間存在交互效應
- 需要捕捉複雜曲線關係
- 特徵數量較少但關係複雜的數據集
優缺點：
- ✅ 顯著增強線性模型的表達能力
- ✅ 可以捕捉複雜的非線性模式和交互效應
- ✅ 保持模型的可解釋性（知道具體使用了哪些特徵組合）
- ❌ 特徵數量指數級增長，造成維度災難
- ❌ 容易導致過擬合，需搭配正則化
- ❌ 增加多重共線性風險
- ❌ 計算複雜度高，需謹慎選擇多項式次數

Box-Cox 變換

Box-Cox是一種參數化的幂變換方法，通過優化參數λ使數據盡可能接近正態分布。

適用場景：
- 需要使數據接近正態分布的情況
- 對分布形態有特定要求的統計模型
- 數據存在明顯偏斜但不確定最佳變換方法
- 線性回歸等假設殘差正態的模型
優缺點：
- ✅ 自動尋找最佳變換參數λ
- ✅ 包含多種常見變換（如對數、平方根）作為特例
- ✅ 可有效改善數據的正態性
- ✅ 有助於滿足許多統計模型的假設條件
- ❌ 僅適用於嚴格正值數據
- ❌ 變換後的值難以直接解釋
- ❌ 對含有零值或負值的數據需要先進行偏移
- ❌ 計算過程相對複雜

Ethan的AI學習筆記《從零開始的資料科學筆記》

留言

Ethan的AI學習筆記

9會員

33內容數

我是一個不務正業的資料科學家，從零開始學習的路途上跌跌撞撞，跌過許多坑，也撞過許多牆... 當有人迷失方向時，希望這些筆記可以成為你的指南針。

Ethan的AI學習筆記的其他內容

2025/11/08

《從零開始的資料科學筆記》Day#20: 機器學習進階技巧二

🪛 特徵編碼為什麼需要特徵編碼? 特徵編碼是將非數值型資料（如類別、文本等）轉換為數值形式的過程，這是機器學習模型處理資料的必要步驟，因為：模型數值需求：大多數機器學習算法只接受數值輸入，無法直接處理文字或類別資料語義保存：編碼過程必須保留原始類別的語義信息，不同編碼方式會保留不同的

2025/11/08

《從零開始的資料科學筆記》Day#20: 機器學習進階技巧二

2025/10/24

《從零開始的資料科學筆記》Day#19: 機器學習進階技巧一

大家應該都實際練習過機器學習的四大技術了，包含迴歸分析、分類分析、分群分析以及時間序列分析。在機器學習模型的開發過程中，我們常將焦點放在演算法的選擇與模型的訓練上，但實際上，一個高效且穩健的模型，往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升，過擬合、特徵尺度不一致以及高維資料噪聲等問題會

2025/10/24

《從零開始的資料科學筆記》Day#19: 機器學習進階技巧一

2025/10/11

《從零開始的資料科學筆記》Day#18: 資料具有時間特性怎麼訓練?

在現實生活中，許多資料並非靜止的，它們會隨著時間不斷變化，形成了一種特殊的資料型態，這就是時間序列資料。時間序列數據廣泛存在於各種領域，如金融市場的股票價格波動、氣候監測的溫度變化、製造業的機器故障檢測，以及網站流量的每日訪問量等。這些資料的最大特點在於：當前的觀測值與過去的值密切相關，未來的趨勢也

2025/10/11

《從零開始的資料科學筆記》Day#18: 資料具有時間特性怎麼訓練?

看更多

你可能也想看

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

方格子 vocus 官方沙龍

🏝️ 方格創作島｜登島全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜登島全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

慵懶貓系的小墨魚:數據外的日常觀察

大數據研究的魔法：三種傾向分析後的的迴歸模型怎麼跑？

在流行病學與大數據分析領域，傾向分數分析（Propensity Score Analysis, PSA）就像一根魔杖，能幫助我們在混亂的資料中，為研究個案找到一群「天生我才、與你相似」的對照組。但找到對照組或調整好資料後，下一步該怎麼做？這篇文章將為你解鎖三種最常見的傾向分數後續分析方法

#傾向分數#流行病學#大數據分析

2025/09/26

慵懶貓系的小墨魚:數據外的日常觀察

大數據研究的魔法：三種傾向分析後的的迴歸模型怎麼跑？

#傾向分數#流行病學#大數據分析

2025/09/26

ACY證券｜即時市場分析｜投資技巧｜股票-外匯-ETF-黃金

【ACY證券 | 每日分析】中美發佈聯合聲明，亞洲股市集體飛升！紐約金遭拋售，美元儲備回歸！

投資者正在拋售今年年初大量儲備在紐約的黃金，令美元上漲，美股回落。中美發佈斯德哥爾摩經貿會談聯合聲明，以及國新辦預告明日發佈刺激新政，引發中國AH股市上漲，日本股市也再次開盤大漲。昨日發生了什麼？黃金：白宮“闢謠”黃金關稅後，川普昨日也發文承諾不會對黃金加徵關稅。至此，市場徹底明白，美國

#投資理財#ACY證券#交易平台

2025/08/12

ACY證券｜即時市場分析｜投資技巧｜股票-外匯-ETF-黃金

【ACY證券 | 每日分析】中美發佈聯合聲明，亞洲股市集體飛升！紐約金遭拋售，美元儲備回歸！

#投資理財#ACY證券#交易平台

2025/08/12

ACY證券｜即時市場分析｜投資技巧｜股票-外匯-ETF-黃金

【ACY證券 | 每日分析】9月降息夢碎、強美元回歸？科技股狂歡！

🧑‍💻訂閱每週【🔗投資週報】：即時行情分析不漏接鮑爾強調9月降息為時尚早，市場預期首次降息延後到10月；美國GDP與小非農雙雙強勁，支撐美元走強，黃金、銅價遭重挫；川普宣佈對印度課徵25%關稅，與南韓達成協議；盤後微軟與Meta財報亮眼，科技股撐盤。 ⭐【新戶註冊】立享$5000贈金�

#交易#市場分析#投資理財

2025/07/31

ACY證券｜即時市場分析｜投資技巧｜股票-外匯-ETF-黃金

【ACY證券 | 每日分析】9月降息夢碎、強美元回歸？科技股狂歡！

#交易#市場分析#投資理財

2025/07/31

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28