每一個成功的模型都始於明確的問題定義!
例如:是要偵測每一筆交易是否涉及洗錢,還是要從大量資料中找出可能的洗錢關聯戶?
數據是模型的基石,但不是所有數據都是有用的!
例如:假如你想找出長期進行洗錢的戶頭,但手上只有一週的交易數據,那麼這樣的數據可能不足以捕捉到洗錢的整體模式。
數據可以告訴你什麼,但業務知識可以告訴你為什麼!
例如:過去的洗錢案例可能顯示,洗錢者經常在深夜進行大量小額交易。這樣的業務知識可以幫助你設計出針對這種模式的特徵。
特徵工程是資料科學中的實務和科學的結合。它需要數據技巧、業務洞察,以及不斷的嘗試和學習。與領域專家緊密合作,將使模型從眾多模型中脫穎而出!
一起加油吧!!!我們下次見,