《從零開始的資料科學筆記》Day#21: 機器學習進階技巧三

更新 發佈閱讀 4 分鐘
raw-image

🧲 特徵轉換方法

特徵轉換是調整數值型特徵分布形態的過程,幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以:

  • 改善數據分布:使偏斜分布更加對稱
  • 降低異常值影響:減少極端值對模型的干擾
  • 捕捉非線性關係:讓線性模型可以學習複雜模式
  • 提高訓練穩定性:加速梯度下降收斂過程

對數變換 (Log Transformation)

對數變換可以有效壓縮大範圍的數值,使分布更加均勻,是處理右偏(正偏)數據的常用方法。

raw-image
raw-image
  • 適用場景:
    • 高度右偏(正偏)數據,如收入、房價、人口- 數據範圍跨越多個數量級- 存在極端異常值的特徵- 呈指數增長的數據
  • 優缺點:
  • ✅ 有效壓縮大範圍值,保留小範圍值的差異
  • ✅ 降低極端值影響,穩定模型訓練
  • ✅ 使乘法關係轉換為加法關係(log(xy) = log(x) + log(y))
  • ❌ 不適用於負值和零值(需添加常數)
  • ❌ 可能過度壓縮大值區域的差異
  • ❌ 轉換後特徵失去原始尺度的直觀解釋性

平方根變換 (Square Root Transformation)

平方根變換是比對數變換更溫和的壓縮方法,適用於中度偏斜的數據。

raw-image
raw-image
  • 適用場景:
    • 中度右偏(正偏)數據
    • 計數型數據(如事件頻率、出現次數)
    • 比例型數據(如百分比)
    • 數據範圍相對較小且全部為非負值
  • 優缺點:
    • ✅ 比對數變換更溫和,保留更多原始數據特性
    • ✅ 對於中等範圍的數據更有效
    • ✅ 計算簡單,容易理解
    • ✅ 可用於零值(不需添加常數)
    • ❌ 不適用於極度偏斜的分布
    • ❌ 不適用於負值(需添加常數)
    • ❌ 對大值的壓縮效果低於對數變換

多項式特徵構造 (Polynomial Features)

多項式特徵構造通過創建原始特徵的高階組合,使線性模型能夠捕捉數據中的非線性關係。

對於特徵 X₁, X₂,可創建:

X₁², X₂² (二次項)
X₁X₂ (交互項)
X₁³, X₂³ (三次項) 等
raw-image
  • 適用場景:
    • 使用線性模型處理非線性關係
    • 特徵間存在交互效應
    • 需要捕捉複雜曲線關係
    • 特徵數量較少但關係複雜的數據集
  • 優缺點:
    • ✅ 顯著增強線性模型的表達能力
    • ✅ 可以捕捉複雜的非線性模式和交互效應
    • ✅ 保持模型的可解釋性(知道具體使用了哪些特徵組合)
    • ❌ 特徵數量指數級增長,造成維度災難
    • ❌ 容易導致過擬合,需搭配正則化
    • ❌ 增加多重共線性風險
    • ❌ 計算複雜度高,需謹慎選擇多項式次數

Box-Cox 變換

Box-Cox是一種參數化的幂變換方法,通過優化參數λ使數據盡可能接近正態分布。

raw-image
raw-image
  • 適用場景:
    • 需要使數據接近正態分布的情況
    • 對分布形態有特定要求的統計模型
    • 數據存在明顯偏斜但不確定最佳變換方法
    • 線性回歸等假設殘差正態的模型
  • 優缺點:
    • ✅ 自動尋找最佳變換參數λ
    • ✅ 包含多種常見變換(如對數、平方根)作為特例
    • ✅ 可有效改善數據的正態性
    • ✅ 有助於滿足許多統計模型的假設條件
    • ❌ 僅適用於嚴格正值數據
    • ❌ 變換後的值難以直接解釋
    • ❌ 對含有零值或負值的數據需要先進行偏移
    • ❌ 計算過程相對複雜










留言
avatar-img
Ethan的AI學習筆記
8會員
33內容數
我是一個不務正業的資料科學家,從零開始學習的路途上跌跌撞撞,跌過許多坑,也撞過許多牆... 當有人迷失方向時,希望這些筆記可以成為你的指南針。
Ethan的AI學習筆記的其他內容
2025/11/08
🪛 特徵編碼 為什麼需要特徵編碼? 特徵編碼是將非數值型資料(如類別、文本等)轉換為數值形式的過程,這是機器學習模型處理資料的必要步驟,因為: 模型數值需求:大多數機器學習算法只接受數值輸入,無法直接處理文字或類別資料 語義保存:編碼過程必須保留原始類別的語義信息,不同編碼方式會保留不同的
Thumbnail
2025/11/08
🪛 特徵編碼 為什麼需要特徵編碼? 特徵編碼是將非數值型資料(如類別、文本等)轉換為數值形式的過程,這是機器學習模型處理資料的必要步驟,因為: 模型數值需求:大多數機器學習算法只接受數值輸入,無法直接處理文字或類別資料 語義保存:編碼過程必須保留原始類別的語義信息,不同編碼方式會保留不同的
Thumbnail
2025/10/24
大家應該都實際練習過機器學習的四大技術了,包含迴歸分析、分類分析、分群分析以及時間序列分析。 在機器學習模型的開發過程中,我們常將焦點放在演算法的選擇與模型的訓練上,但實際上,一個高效且穩健的模型,往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升,過擬合、特徵尺度不一致以及高維資料噪聲等問題會
Thumbnail
2025/10/24
大家應該都實際練習過機器學習的四大技術了,包含迴歸分析、分類分析、分群分析以及時間序列分析。 在機器學習模型的開發過程中,我們常將焦點放在演算法的選擇與模型的訓練上,但實際上,一個高效且穩健的模型,往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升,過擬合、特徵尺度不一致以及高維資料噪聲等問題會
Thumbnail
2025/10/11
在現實生活中,許多資料並非靜止的,它們會隨著時間不斷變化,形成了一種特殊的資料型態,這就是時間序列資料。時間序列數據廣泛存在於各種領域,如金融市場的股票價格波動、氣候監測的溫度變化、製造業的機器故障檢測,以及網站流量的每日訪問量等。這些資料的最大特點在於:當前的觀測值與過去的值密切相關,未來的趨勢也
Thumbnail
2025/10/11
在現實生活中,許多資料並非靜止的,它們會隨著時間不斷變化,形成了一種特殊的資料型態,這就是時間序列資料。時間序列數據廣泛存在於各種領域,如金融市場的股票價格波動、氣候監測的溫度變化、製造業的機器故障檢測,以及網站流量的每日訪問量等。這些資料的最大特點在於:當前的觀測值與過去的值密切相關,未來的趨勢也
Thumbnail
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
在流行病學與大數據分析領域,傾向分數分析(Propensity Score Analysis, PSA)就像一根魔杖,能幫助我們在混亂的資料中,為研究個案找到一群「天生我才、與你相似」的對照組。但找到對照組或調整好資料後,下一步該怎麼做? 這篇文章將為你解鎖三種最常見的傾向分數後續分析方法
Thumbnail
在流行病學與大數據分析領域,傾向分數分析(Propensity Score Analysis, PSA)就像一根魔杖,能幫助我們在混亂的資料中,為研究個案找到一群「天生我才、與你相似」的對照組。但找到對照組或調整好資料後,下一步該怎麼做? 這篇文章將為你解鎖三種最常見的傾向分數後續分析方法
Thumbnail
投資者正在拋售今年年初大量儲備在紐約的黃金,令美元上漲,美股回落。中美發佈斯德哥爾摩經貿會談聯合聲明,以及國新辦預告明日發佈刺激新政,引發中國AH股市上漲,日本股市也再次開盤大漲。 昨日發生了什麼? 黃金:白宮“闢謠”黃金關稅後,川普昨日也發文承諾不會對黃金加徵關稅。至此,市場徹底明白,美國
Thumbnail
投資者正在拋售今年年初大量儲備在紐約的黃金,令美元上漲,美股回落。中美發佈斯德哥爾摩經貿會談聯合聲明,以及國新辦預告明日發佈刺激新政,引發中國AH股市上漲,日本股市也再次開盤大漲。 昨日發生了什麼? 黃金:白宮“闢謠”黃金關稅後,川普昨日也發文承諾不會對黃金加徵關稅。至此,市場徹底明白,美國
Thumbnail
🧑‍💻訂閱每週【🔗投資週報】:即時行情分析不漏接 鮑爾強調9月降息為時尚早,市場預期首次降息延後到10月;美國GDP與小非農雙雙強勁,支撐美元走強,黃金、銅價遭重挫;川普宣佈對印度課徵25%關稅,與南韓達成協議;盤後微軟與Meta財報亮眼,科技股撐盤。  ⭐【新戶註冊】立享$5000贈金�
Thumbnail
🧑‍💻訂閱每週【🔗投資週報】:即時行情分析不漏接 鮑爾強調9月降息為時尚早,市場預期首次降息延後到10月;美國GDP與小非農雙雙強勁,支撐美元走強,黃金、銅價遭重挫;川普宣佈對印度課徵25%關稅,與南韓達成協議;盤後微軟與Meta財報亮眼,科技股撐盤。  ⭐【新戶註冊】立享$5000贈金�
Thumbnail
線性回歸是一種統計方法,用於分析自變數 (x) 和因變數 👍 之間的線性關係。在數據合作的背景下,廣告商(Advertiser)和出版商(Publisher)可以利用線性回歸來共同分析和預測業務成果。以下是關鍵概念及其應用範例。 ▋線性回歸的目標 線性回歸的主要目的是利用自變數(如廣告
Thumbnail
線性回歸是一種統計方法,用於分析自變數 (x) 和因變數 👍 之間的線性關係。在數據合作的背景下,廣告商(Advertiser)和出版商(Publisher)可以利用線性回歸來共同分析和預測業務成果。以下是關鍵概念及其應用範例。 ▋線性回歸的目標 線性回歸的主要目的是利用自變數(如廣告
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News