《從零開始的資料科學筆記》Day#21: 機器學習進階技巧三

更新 發佈閱讀 4 分鐘
raw-image

🧲 特徵轉換方法

特徵轉換是調整數值型特徵分布形態的過程,幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以:

  • 改善數據分布:使偏斜分布更加對稱
  • 降低異常值影響:減少極端值對模型的干擾
  • 捕捉非線性關係:讓線性模型可以學習複雜模式
  • 提高訓練穩定性:加速梯度下降收斂過程

對數變換 (Log Transformation)

對數變換可以有效壓縮大範圍的數值,使分布更加均勻,是處理右偏(正偏)數據的常用方法。

raw-image
raw-image
  • 適用場景:
    • 高度右偏(正偏)數據,如收入、房價、人口- 數據範圍跨越多個數量級- 存在極端異常值的特徵- 呈指數增長的數據
  • 優缺點:
  • ✅ 有效壓縮大範圍值,保留小範圍值的差異
  • ✅ 降低極端值影響,穩定模型訓練
  • ✅ 使乘法關係轉換為加法關係(log(xy) = log(x) + log(y))
  • ❌ 不適用於負值和零值(需添加常數)
  • ❌ 可能過度壓縮大值區域的差異
  • ❌ 轉換後特徵失去原始尺度的直觀解釋性

平方根變換 (Square Root Transformation)

平方根變換是比對數變換更溫和的壓縮方法,適用於中度偏斜的數據。

raw-image
raw-image
  • 適用場景:
    • 中度右偏(正偏)數據
    • 計數型數據(如事件頻率、出現次數)
    • 比例型數據(如百分比)
    • 數據範圍相對較小且全部為非負值
  • 優缺點:
    • ✅ 比對數變換更溫和,保留更多原始數據特性
    • ✅ 對於中等範圍的數據更有效
    • ✅ 計算簡單,容易理解
    • ✅ 可用於零值(不需添加常數)
    • ❌ 不適用於極度偏斜的分布
    • ❌ 不適用於負值(需添加常數)
    • ❌ 對大值的壓縮效果低於對數變換

多項式特徵構造 (Polynomial Features)

多項式特徵構造通過創建原始特徵的高階組合,使線性模型能夠捕捉數據中的非線性關係。

對於特徵 X₁, X₂,可創建:

X₁², X₂² (二次項)
X₁X₂ (交互項)
X₁³, X₂³ (三次項) 等
raw-image
  • 適用場景:
    • 使用線性模型處理非線性關係
    • 特徵間存在交互效應
    • 需要捕捉複雜曲線關係
    • 特徵數量較少但關係複雜的數據集
  • 優缺點:
    • ✅ 顯著增強線性模型的表達能力
    • ✅ 可以捕捉複雜的非線性模式和交互效應
    • ✅ 保持模型的可解釋性(知道具體使用了哪些特徵組合)
    • ❌ 特徵數量指數級增長,造成維度災難
    • ❌ 容易導致過擬合,需搭配正則化
    • ❌ 增加多重共線性風險
    • ❌ 計算複雜度高,需謹慎選擇多項式次數

Box-Cox 變換

Box-Cox是一種參數化的幂變換方法,通過優化參數λ使數據盡可能接近正態分布。

raw-image
raw-image
  • 適用場景:
    • 需要使數據接近正態分布的情況
    • 對分布形態有特定要求的統計模型
    • 數據存在明顯偏斜但不確定最佳變換方法
    • 線性回歸等假設殘差正態的模型
  • 優缺點:
    • ✅ 自動尋找最佳變換參數λ
    • ✅ 包含多種常見變換(如對數、平方根)作為特例
    • ✅ 可有效改善數據的正態性
    • ✅ 有助於滿足許多統計模型的假設條件
    • ❌ 僅適用於嚴格正值數據
    • ❌ 變換後的值難以直接解釋
    • ❌ 對含有零值或負值的數據需要先進行偏移
    • ❌ 計算過程相對複雜










留言
avatar-img
Ethan的AI學習筆記
8會員
33內容數
我是一個不務正業的資料科學家,從零開始學習的路途上跌跌撞撞,跌過許多坑,也撞過許多牆... 當有人迷失方向時,希望這些筆記可以成為你的指南針。
Ethan的AI學習筆記的其他內容
2025/11/08
🪛 特徵編碼 為什麼需要特徵編碼? 特徵編碼是將非數值型資料(如類別、文本等)轉換為數值形式的過程,這是機器學習模型處理資料的必要步驟,因為: 模型數值需求:大多數機器學習算法只接受數值輸入,無法直接處理文字或類別資料 語義保存:編碼過程必須保留原始類別的語義信息,不同編碼方式會保留不同的
Thumbnail
2025/11/08
🪛 特徵編碼 為什麼需要特徵編碼? 特徵編碼是將非數值型資料(如類別、文本等)轉換為數值形式的過程,這是機器學習模型處理資料的必要步驟,因為: 模型數值需求:大多數機器學習算法只接受數值輸入,無法直接處理文字或類別資料 語義保存:編碼過程必須保留原始類別的語義信息,不同編碼方式會保留不同的
Thumbnail
2025/10/24
大家應該都實際練習過機器學習的四大技術了,包含迴歸分析、分類分析、分群分析以及時間序列分析。 在機器學習模型的開發過程中,我們常將焦點放在演算法的選擇與模型的訓練上,但實際上,一個高效且穩健的模型,往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升,過擬合、特徵尺度不一致以及高維資料噪聲等問題會
Thumbnail
2025/10/24
大家應該都實際練習過機器學習的四大技術了,包含迴歸分析、分類分析、分群分析以及時間序列分析。 在機器學習模型的開發過程中,我們常將焦點放在演算法的選擇與模型的訓練上,但實際上,一個高效且穩健的模型,往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升,過擬合、特徵尺度不一致以及高維資料噪聲等問題會
Thumbnail
2025/10/11
在現實生活中,許多資料並非靜止的,它們會隨著時間不斷變化,形成了一種特殊的資料型態,這就是時間序列資料。時間序列數據廣泛存在於各種領域,如金融市場的股票價格波動、氣候監測的溫度變化、製造業的機器故障檢測,以及網站流量的每日訪問量等。這些資料的最大特點在於:當前的觀測值與過去的值密切相關,未來的趨勢也
Thumbnail
2025/10/11
在現實生活中,許多資料並非靜止的,它們會隨著時間不斷變化,形成了一種特殊的資料型態,這就是時間序列資料。時間序列數據廣泛存在於各種領域,如金融市場的股票價格波動、氣候監測的溫度變化、製造業的機器故障檢測,以及網站流量的每日訪問量等。這些資料的最大特點在於:當前的觀測值與過去的值密切相關,未來的趨勢也
Thumbnail
看更多
你可能也想看
Thumbnail
在流行病學與大數據分析領域,傾向分數分析(Propensity Score Analysis, PSA)就像一根魔杖,能幫助我們在混亂的資料中,為研究個案找到一群「天生我才、與你相似」的對照組。但找到對照組或調整好資料後,下一步該怎麼做? 這篇文章將為你解鎖三種最常見的傾向分數後續分析方法
Thumbnail
在流行病學與大數據分析領域,傾向分數分析(Propensity Score Analysis, PSA)就像一根魔杖,能幫助我們在混亂的資料中,為研究個案找到一群「天生我才、與你相似」的對照組。但找到對照組或調整好資料後,下一步該怎麼做? 這篇文章將為你解鎖三種最常見的傾向分數後續分析方法
Thumbnail
線性回歸是一種統計方法,用於分析自變數 (x) 和因變數 👍 之間的線性關係。在數據合作的背景下,廣告商(Advertiser)和出版商(Publisher)可以利用線性回歸來共同分析和預測業務成果。以下是關鍵概念及其應用範例。 ▋線性回歸的目標 線性回歸的主要目的是利用自變數(如廣告
Thumbnail
線性回歸是一種統計方法,用於分析自變數 (x) 和因變數 👍 之間的線性關係。在數據合作的背景下,廣告商(Advertiser)和出版商(Publisher)可以利用線性回歸來共同分析和預測業務成果。以下是關鍵概念及其應用範例。 ▋線性回歸的目標 線性回歸的主要目的是利用自變數(如廣告
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
投資者正在拋售今年年初大量儲備在紐約的黃金,令美元上漲,美股回落。中美發佈斯德哥爾摩經貿會談聯合聲明,以及國新辦預告明日發佈刺激新政,引發中國AH股市上漲,日本股市也再次開盤大漲。 昨日發生了什麼? 黃金:白宮“闢謠”黃金關稅後,川普昨日也發文承諾不會對黃金加徵關稅。至此,市場徹底明白,美國
Thumbnail
投資者正在拋售今年年初大量儲備在紐約的黃金,令美元上漲,美股回落。中美發佈斯德哥爾摩經貿會談聯合聲明,以及國新辦預告明日發佈刺激新政,引發中國AH股市上漲,日本股市也再次開盤大漲。 昨日發生了什麼? 黃金:白宮“闢謠”黃金關稅後,川普昨日也發文承諾不會對黃金加徵關稅。至此,市場徹底明白,美國
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
🧑‍💻訂閱每週【🔗投資週報】:即時行情分析不漏接 鮑爾強調9月降息為時尚早,市場預期首次降息延後到10月;美國GDP與小非農雙雙強勁,支撐美元走強,黃金、銅價遭重挫;川普宣佈對印度課徵25%關稅,與南韓達成協議;盤後微軟與Meta財報亮眼,科技股撐盤。  ⭐【新戶註冊】立享$5000贈金�
Thumbnail
🧑‍💻訂閱每週【🔗投資週報】:即時行情分析不漏接 鮑爾強調9月降息為時尚早,市場預期首次降息延後到10月;美國GDP與小非農雙雙強勁,支撐美元走強,黃金、銅價遭重挫;川普宣佈對印度課徵25%關稅,與南韓達成協議;盤後微軟與Meta財報亮眼,科技股撐盤。  ⭐【新戶註冊】立享$5000贈金�
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News