特徵工程前的三大核心準備!

閱讀時間約 1 分鐘
raw-image

1. 問題定義

每一個成功的模型都始於明確的問題定義!

  • 核心思考:你的模型想要達到什麼目的?

例如:是要偵測每一筆交易是否涉及洗錢,還是要從大量資料中找出可能的洗錢關聯戶?

2. 數據檢查

數據是模型的基石,但不是所有數據都是有用的!

  • 核心思考:你的數據夠嗎?時間分佈如何?正負樣本平衡嗎?

例如:假如你想找出長期進行洗錢的戶頭,但手上只有一週的交易數據,那麼這樣的數據可能不足以捕捉到洗錢的整體模式。

3. 業務知識

數據可以告訴你什麼,但業務知識可以告訴你為什麼!

  • 核心思考:如何結合領域知識來提煉更有力的特徵?

例如:過去的洗錢案例可能顯示,洗錢者經常在深夜進行大量小額交易。這樣的業務知識可以幫助你設計出針對這種模式的特徵。

特徵工程是資料科學中的實務和科學的結合。它需要數據技巧、業務洞察,以及不斷的嘗試和學習。與領域專家緊密合作,將使模型從眾多模型中脫穎而出!

一起加油吧!!!我們下次見,

31會員
36Content count
歡迎來到《桃花源記》專欄。這裡不僅是一個文字的集合,更是一個探索、夢想和自我發現的空間。在這個專欄中,我們將一同走進那些隱藏在日常生活中的"桃花源"——那些讓我們心動、讓我們反思、讓我們找到內心平靜的時刻和地方
留言0
查看全部
發表第一個留言支持創作者!
Karen的沙龍 的其他內容
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
最近有採購幾台 server ,正在進行一些設定的作業,把這些過程都保留下來,之後要再設定就可以回來查看了~~~ 目標 在 Centos Linux 主機上移除 Podman ,並安裝 Docker 解決 首先先確認 Centos 的版本,是 Debian or Fedora cat /
最近在調整跟優化效能時,又來複習了 Multi-threading 和 Multiprocessing 的概念,在面對大數據時,能夠有效利用多核心處理器的能力,對於提升程式執行效能至關重要。 Python 提供多線程(Multi-threading) 和多進程 (Multiprocessing)
How to utilize batch input and multi-processing techniques to accelerate feature engineering? 問題 在進行特徵工程的過程中,我們通常需要處理各種各樣的數據,並轉換它們成有意義的特徵,以供後續的模型訓練
How to access feature names in a trained XGB model ? 故事是這樣的... 在接手某個專案中,取得了一份已經訓練好的 pickle 檔案記載著 XGBoost model weight ,但因為 feature engineering 的程式碼交
matplotlib 無法顯示中文,看了很多篇教學文都無效 mac 解法可以參考這篇...
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
最近有採購幾台 server ,正在進行一些設定的作業,把這些過程都保留下來,之後要再設定就可以回來查看了~~~ 目標 在 Centos Linux 主機上移除 Podman ,並安裝 Docker 解決 首先先確認 Centos 的版本,是 Debian or Fedora cat /
最近在調整跟優化效能時,又來複習了 Multi-threading 和 Multiprocessing 的概念,在面對大數據時,能夠有效利用多核心處理器的能力,對於提升程式執行效能至關重要。 Python 提供多線程(Multi-threading) 和多進程 (Multiprocessing)
How to utilize batch input and multi-processing techniques to accelerate feature engineering? 問題 在進行特徵工程的過程中,我們通常需要處理各種各樣的數據,並轉換它們成有意義的特徵,以供後續的模型訓練
How to access feature names in a trained XGB model ? 故事是這樣的... 在接手某個專案中,取得了一份已經訓練好的 pickle 檔案記載著 XGBoost model weight ,但因為 feature engineering 的程式碼交
matplotlib 無法顯示中文,看了很多篇教學文都無效 mac 解法可以參考這篇...
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
Onshape 特徵工具列功能工具欄
月亮反海王星人:月亮與海王星對分相,感覺最混亂、受傷的相位,反海王星人至少還有一個持續發光發熱並且堅定的太陽,但月反海王星人卻有兩個反射體,等於站在兩面鏡子之中,不管往左看往右看,都是一面無限延伸的通道。如果說海王星帶來雙重性,那月反海王星人就可以延伸出更多種的分裂可能
月亮海王星人: 月亮與海王星合相,感覺最雙魚的相位,就算沒有任何個人星體落入雙魚12宮,都無損你的夢幻公主氣質。月亮是反射太陽光的地球衛星,而海王星則在月亮背後再加以渲染,等於是霧中之后,能在情感上沒有限制的滲透與擴散。
Thumbnail
反海王星人: 太陽與海王星對分相,如果說日海合是天生的演員,那日海衝就是不想演戲卻被逼著上台的演員。此時海王星在太陽的對面,一起包夾地球,某些時刻會讓你覺得有如海王星人一般,因為海面反射了太陽光,讓你產生有兩個太陽的錯覺。
Thumbnail
經濟衰退會不會發生?這個問題很難回答,但我們認為市場已經在為經濟衰退定價,而滿手現金的基金經理人與投資人,可能也會伺機布局,但該投資什麼呢?「邏輯投資」提出一些建議供讀者參考。
Thumbnail
以上似乎是標準說法,常被學者引用或詮釋,如云:當代邪教組織具有教主崇拜、精神控制、編造邪說、聚斂錢財、秘密結社和危害社會等特徵[4] 。
Thumbnail
認知心理學提到注意力有四種功能,分別是信號偵測與警戒、搜尋、選擇性注意力與分配性注意力。 信號偵測與警戒: 信號偵測就像偵察機,可以找到特定物體。個體能在環境中找到要找的人事物,例如:能在人群中看到自己的家人朋友,警察能在人群中認出要抓得通緝犯,作業員能在組裝過程發現瑕疵品。個體在偵測得同時,也必
Thumbnail
俗話說得好:「渣男年年有,今年特別多。」,不管是政治圈、娛樂圈或是體育圈,今年上半年還沒過完就出了一些驚人的渣男新聞,為了避免廣大的女性同胞未來再誤觸地雷,今天彙整了十項渣男特徵,讓大家趨吉避凶,現在就開始徹底檢驗一下妳身邊的伴侶吧!(超過70%的話就快逃阿)
Thumbnail
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
Onshape 特徵工具列功能工具欄
月亮反海王星人:月亮與海王星對分相,感覺最混亂、受傷的相位,反海王星人至少還有一個持續發光發熱並且堅定的太陽,但月反海王星人卻有兩個反射體,等於站在兩面鏡子之中,不管往左看往右看,都是一面無限延伸的通道。如果說海王星帶來雙重性,那月反海王星人就可以延伸出更多種的分裂可能
月亮海王星人: 月亮與海王星合相,感覺最雙魚的相位,就算沒有任何個人星體落入雙魚12宮,都無損你的夢幻公主氣質。月亮是反射太陽光的地球衛星,而海王星則在月亮背後再加以渲染,等於是霧中之后,能在情感上沒有限制的滲透與擴散。
Thumbnail
反海王星人: 太陽與海王星對分相,如果說日海合是天生的演員,那日海衝就是不想演戲卻被逼著上台的演員。此時海王星在太陽的對面,一起包夾地球,某些時刻會讓你覺得有如海王星人一般,因為海面反射了太陽光,讓你產生有兩個太陽的錯覺。
Thumbnail
經濟衰退會不會發生?這個問題很難回答,但我們認為市場已經在為經濟衰退定價,而滿手現金的基金經理人與投資人,可能也會伺機布局,但該投資什麼呢?「邏輯投資」提出一些建議供讀者參考。
Thumbnail
以上似乎是標準說法,常被學者引用或詮釋,如云:當代邪教組織具有教主崇拜、精神控制、編造邪說、聚斂錢財、秘密結社和危害社會等特徵[4] 。
Thumbnail
認知心理學提到注意力有四種功能,分別是信號偵測與警戒、搜尋、選擇性注意力與分配性注意力。 信號偵測與警戒: 信號偵測就像偵察機,可以找到特定物體。個體能在環境中找到要找的人事物,例如:能在人群中看到自己的家人朋友,警察能在人群中認出要抓得通緝犯,作業員能在組裝過程發現瑕疵品。個體在偵測得同時,也必
Thumbnail
俗話說得好:「渣男年年有,今年特別多。」,不管是政治圈、娛樂圈或是體育圈,今年上半年還沒過完就出了一些驚人的渣男新聞,為了避免廣大的女性同胞未來再誤觸地雷,今天彙整了十項渣男特徵,讓大家趨吉避凶,現在就開始徹底檢驗一下妳身邊的伴侶吧!(超過70%的話就快逃阿)
Thumbnail
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...