2023-10-09|閱讀時間 ‧ 約 1 分鐘

特徵工程前的三大核心準備!

raw-image

1. 問題定義

每一個成功的模型都始於明確的問題定義!

  • 核心思考:你的模型想要達到什麼目的?

例如:是要偵測每一筆交易是否涉及洗錢,還是要從大量資料中找出可能的洗錢關聯戶?

2. 數據檢查

數據是模型的基石,但不是所有數據都是有用的!

  • 核心思考:你的數據夠嗎?時間分佈如何?正負樣本平衡嗎?

例如:假如你想找出長期進行洗錢的戶頭,但手上只有一週的交易數據,那麼這樣的數據可能不足以捕捉到洗錢的整體模式。

3. 業務知識

數據可以告訴你什麼,但業務知識可以告訴你為什麼!

  • 核心思考:如何結合領域知識來提煉更有力的特徵?

例如:過去的洗錢案例可能顯示,洗錢者經常在深夜進行大量小額交易。這樣的業務知識可以幫助你設計出針對這種模式的特徵。

特徵工程是資料科學中的實務和科學的結合。它需要數據技巧、業務洞察,以及不斷的嘗試和學習。與領域專家緊密合作,將使模型從眾多模型中脫穎而出!

一起加油吧!!!我們下次見,

分享至
成為作者繼續創作的動力吧!
歡迎來到「資料科學家之路」,一個專為資料科學家和資料科學愛好者設計的專欄。在這裡,我們將探討資料科學的各個方面,從基礎的數據分析和機器學習技術,到如何應用這些技術解決實際問題。讓我們一起走上這條充滿挑戰和機會的「資料科學家之路」。
從 Google News 追蹤更多 vocus 的最新精選內容從 Google News 追蹤更多 vocus 的最新精選內容

發表回應

成為會員 後即可發表留言