vocus logo

方格子 vocus

《從零開始的資料科學筆記》Day#21: 機器學習進階技巧三

更新 發佈閱讀 4 分鐘
vocus|新世代的創作平台

🧲 特徵轉換方法

特徵轉換是調整數值型特徵分布形態的過程,幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以:

  • 改善數據分布:使偏斜分布更加對稱
  • 降低異常值影響:減少極端值對模型的干擾
  • 捕捉非線性關係:讓線性模型可以學習複雜模式
  • 提高訓練穩定性:加速梯度下降收斂過程

對數變換 (Log Transformation)

對數變換可以有效壓縮大範圍的數值,使分布更加均勻,是處理右偏(正偏)數據的常用方法。

vocus|新世代的創作平台
vocus|新世代的創作平台
  • 適用場景:
    • 高度右偏(正偏)數據,如收入、房價、人口- 數據範圍跨越多個數量級- 存在極端異常值的特徵- 呈指數增長的數據
  • 優缺點:
  • ✅ 有效壓縮大範圍值,保留小範圍值的差異
  • ✅ 降低極端值影響,穩定模型訓練
  • ✅ 使乘法關係轉換為加法關係(log(xy) = log(x) + log(y))
  • ❌ 不適用於負值和零值(需添加常數)
  • ❌ 可能過度壓縮大值區域的差異
  • ❌ 轉換後特徵失去原始尺度的直觀解釋性

平方根變換 (Square Root Transformation)

平方根變換是比對數變換更溫和的壓縮方法,適用於中度偏斜的數據。

vocus|新世代的創作平台
vocus|新世代的創作平台
  • 適用場景:
    • 中度右偏(正偏)數據
    • 計數型數據(如事件頻率、出現次數)
    • 比例型數據(如百分比)
    • 數據範圍相對較小且全部為非負值
  • 優缺點:
    • ✅ 比對數變換更溫和,保留更多原始數據特性
    • ✅ 對於中等範圍的數據更有效
    • ✅ 計算簡單,容易理解
    • ✅ 可用於零值(不需添加常數)
    • ❌ 不適用於極度偏斜的分布
    • ❌ 不適用於負值(需添加常數)
    • ❌ 對大值的壓縮效果低於對數變換

多項式特徵構造 (Polynomial Features)

多項式特徵構造通過創建原始特徵的高階組合,使線性模型能夠捕捉數據中的非線性關係。

對於特徵 X₁, X₂,可創建:

X₁², X₂² (二次項)
X₁X₂ (交互項)
X₁³, X₂³ (三次項) 等
vocus|新世代的創作平台
  • 適用場景:
    • 使用線性模型處理非線性關係
    • 特徵間存在交互效應
    • 需要捕捉複雜曲線關係
    • 特徵數量較少但關係複雜的數據集
  • 優缺點:
    • ✅ 顯著增強線性模型的表達能力
    • ✅ 可以捕捉複雜的非線性模式和交互效應
    • ✅ 保持模型的可解釋性(知道具體使用了哪些特徵組合)
    • ❌ 特徵數量指數級增長,造成維度災難
    • ❌ 容易導致過擬合,需搭配正則化
    • ❌ 增加多重共線性風險
    • ❌ 計算複雜度高,需謹慎選擇多項式次數

Box-Cox 變換

Box-Cox是一種參數化的幂變換方法,通過優化參數λ使數據盡可能接近正態分布。

vocus|新世代的創作平台
vocus|新世代的創作平台
  • 適用場景:
    • 需要使數據接近正態分布的情況
    • 對分布形態有特定要求的統計模型
    • 數據存在明顯偏斜但不確定最佳變換方法
    • 線性回歸等假設殘差正態的模型
  • 優缺點:
    • ✅ 自動尋找最佳變換參數λ
    • ✅ 包含多種常見變換(如對數、平方根)作為特例
    • ✅ 可有效改善數據的正態性
    • ✅ 有助於滿足許多統計模型的假設條件
    • ❌ 僅適用於嚴格正值數據
    • ❌ 變換後的值難以直接解釋
    • ❌ 對含有零值或負值的數據需要先進行偏移
    • ❌ 計算過程相對複雜










留言
avatar-img
Ethan的AI學習筆記
9會員
33內容數
我是一個不務正業的資料科學家,從零開始學習的路途上跌跌撞撞,跌過許多坑,也撞過許多牆... 當有人迷失方向時,希望這些筆記可以成為你的指南針。
Ethan的AI學習筆記的其他內容
2025/11/08
🪛 特徵編碼 為什麼需要特徵編碼? 特徵編碼是將非數值型資料(如類別、文本等)轉換為數值形式的過程,這是機器學習模型處理資料的必要步驟,因為: 模型數值需求:大多數機器學習算法只接受數值輸入,無法直接處理文字或類別資料 語義保存:編碼過程必須保留原始類別的語義信息,不同編碼方式會保留不同的
Thumbnail
2025/11/08
🪛 特徵編碼 為什麼需要特徵編碼? 特徵編碼是將非數值型資料(如類別、文本等)轉換為數值形式的過程,這是機器學習模型處理資料的必要步驟,因為: 模型數值需求:大多數機器學習算法只接受數值輸入,無法直接處理文字或類別資料 語義保存:編碼過程必須保留原始類別的語義信息,不同編碼方式會保留不同的
Thumbnail
2025/10/24
大家應該都實際練習過機器學習的四大技術了,包含迴歸分析、分類分析、分群分析以及時間序列分析。 在機器學習模型的開發過程中,我們常將焦點放在演算法的選擇與模型的訓練上,但實際上,一個高效且穩健的模型,往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升,過擬合、特徵尺度不一致以及高維資料噪聲等問題會
Thumbnail
2025/10/24
大家應該都實際練習過機器學習的四大技術了,包含迴歸分析、分類分析、分群分析以及時間序列分析。 在機器學習模型的開發過程中,我們常將焦點放在演算法的選擇與模型的訓練上,但實際上,一個高效且穩健的模型,往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升,過擬合、特徵尺度不一致以及高維資料噪聲等問題會
Thumbnail
2025/10/11
在現實生活中,許多資料並非靜止的,它們會隨著時間不斷變化,形成了一種特殊的資料型態,這就是時間序列資料。時間序列數據廣泛存在於各種領域,如金融市場的股票價格波動、氣候監測的溫度變化、製造業的機器故障檢測,以及網站流量的每日訪問量等。這些資料的最大特點在於:當前的觀測值與過去的值密切相關,未來的趨勢也
Thumbnail
2025/10/11
在現實生活中,許多資料並非靜止的,它們會隨著時間不斷變化,形成了一種特殊的資料型態,這就是時間序列資料。時間序列數據廣泛存在於各種領域,如金融市場的股票價格波動、氣候監測的溫度變化、製造業的機器故障檢測,以及網站流量的每日訪問量等。這些資料的最大特點在於:當前的觀測值與過去的值密切相關,未來的趨勢也
Thumbnail
看更多
你可能也想看
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
在流行病學與大數據分析領域,傾向分數分析(Propensity Score Analysis, PSA)就像一根魔杖,能幫助我們在混亂的資料中,為研究個案找到一群「天生我才、與你相似」的對照組。但找到對照組或調整好資料後,下一步該怎麼做? 這篇文章將為你解鎖三種最常見的傾向分數後續分析方法
Thumbnail
在流行病學與大數據分析領域,傾向分數分析(Propensity Score Analysis, PSA)就像一根魔杖,能幫助我們在混亂的資料中,為研究個案找到一群「天生我才、與你相似」的對照組。但找到對照組或調整好資料後,下一步該怎麼做? 這篇文章將為你解鎖三種最常見的傾向分數後續分析方法
Thumbnail
投資者正在拋售今年年初大量儲備在紐約的黃金,令美元上漲,美股回落。中美發佈斯德哥爾摩經貿會談聯合聲明,以及國新辦預告明日發佈刺激新政,引發中國AH股市上漲,日本股市也再次開盤大漲。 昨日發生了什麼? 黃金:白宮“闢謠”黃金關稅後,川普昨日也發文承諾不會對黃金加徵關稅。至此,市場徹底明白,美國
Thumbnail
投資者正在拋售今年年初大量儲備在紐約的黃金,令美元上漲,美股回落。中美發佈斯德哥爾摩經貿會談聯合聲明,以及國新辦預告明日發佈刺激新政,引發中國AH股市上漲,日本股市也再次開盤大漲。 昨日發生了什麼? 黃金:白宮“闢謠”黃金關稅後,川普昨日也發文承諾不會對黃金加徵關稅。至此,市場徹底明白,美國
Thumbnail
🧑‍💻訂閱每週【🔗投資週報】:即時行情分析不漏接 鮑爾強調9月降息為時尚早,市場預期首次降息延後到10月;美國GDP與小非農雙雙強勁,支撐美元走強,黃金、銅價遭重挫;川普宣佈對印度課徵25%關稅,與南韓達成協議;盤後微軟與Meta財報亮眼,科技股撐盤。  ⭐【新戶註冊】立享$5000贈金�
Thumbnail
🧑‍💻訂閱每週【🔗投資週報】:即時行情分析不漏接 鮑爾強調9月降息為時尚早,市場預期首次降息延後到10月;美國GDP與小非農雙雙強勁,支撐美元走強,黃金、銅價遭重挫;川普宣佈對印度課徵25%關稅,與南韓達成協議;盤後微軟與Meta財報亮眼,科技股撐盤。  ⭐【新戶註冊】立享$5000贈金�
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
線性回歸是一種統計方法,用於分析自變數 (x) 和因變數 👍 之間的線性關係。在數據合作的背景下,廣告商(Advertiser)和出版商(Publisher)可以利用線性回歸來共同分析和預測業務成果。以下是關鍵概念及其應用範例。 ▋線性回歸的目標 線性回歸的主要目的是利用自變數(如廣告
Thumbnail
線性回歸是一種統計方法,用於分析自變數 (x) 和因變數 👍 之間的線性關係。在數據合作的背景下,廣告商(Advertiser)和出版商(Publisher)可以利用線性回歸來共同分析和預測業務成果。以下是關鍵概念及其應用範例。 ▋線性回歸的目標 線性回歸的主要目的是利用自變數(如廣告
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News