
1. 問題定義
每一個成功的模型都始於明確的問題定義!
- 核心思考:你的模型想要達到什麼目的?
例如:是要偵測每一筆交易是否涉及洗錢,還是要從大量資料中找出可能的洗錢關聯戶?
2. 數據檢查
數據是模型的基石,但不是所有數據都是有用的!- 核心思考:你的數據夠嗎?時間分佈如何?正負樣本平衡嗎?
例如:假如你想找出長期進行洗錢的戶頭,但手上只有一週的交易數據,那麼這樣的數據可能不足以捕捉到洗錢的整體模式。
3. 業務知識
數據可以告訴你什麼,但業務知識可以告訴你為什麼!
- 核心思考:如何結合領域知識來提煉更有力的特徵?
例如:過去的洗錢案例可能顯示,洗錢者經常在深夜進行大量小額交易。這樣的業務知識可以幫助你設計出針對這種模式的特徵。
特徵工程是資料科學中的實務和科學的結合。它需要數據技巧、業務洞察,以及不斷的嘗試和學習。與領域專家緊密合作,將使模型從眾多模型中脫穎而出!
一起加油吧!!!我們下次見,