特徵工程前的三大核心準備!

2023/10/09閱讀時間約 1 分鐘
raw-image

1. 問題定義

每一個成功的模型都始於明確的問題定義!

  • 核心思考:你的模型想要達到什麼目的?

例如:是要偵測每一筆交易是否涉及洗錢,還是要從大量資料中找出可能的洗錢關聯戶?

2. 數據檢查

數據是模型的基石,但不是所有數據都是有用的!

  • 核心思考:你的數據夠嗎?時間分佈如何?正負樣本平衡嗎?

例如:假如你想找出長期進行洗錢的戶頭,但手上只有一週的交易數據,那麼這樣的數據可能不足以捕捉到洗錢的整體模式。

3. 業務知識

數據可以告訴你什麼,但業務知識可以告訴你為什麼!

  • 核心思考:如何結合領域知識來提煉更有力的特徵?

例如:過去的洗錢案例可能顯示,洗錢者經常在深夜進行大量小額交易。這樣的業務知識可以幫助你設計出針對這種模式的特徵。

特徵工程是資料科學中的實務和科學的結合。它需要數據技巧、業務洞察,以及不斷的嘗試和學習。與領域專家緊密合作,將使模型從眾多模型中脫穎而出!

一起加油吧!!!我們下次見,

23會員
28內容數
歡迎來到《桃花源記》專欄。這裡不僅是一個文字的集合,更是一個探索、夢想和自我發現的空間。在這個專欄中,我們將一同走進那些隱藏在日常生活中的"桃花源"——那些讓我們心動、讓我們反思、讓我們找到內心平靜的時刻和地方
留言0
查看全部
發表第一個留言支持創作者!