特徵工程前的三大核心準備!

閱讀時間約 1 分鐘
raw-image

1. 問題定義

每一個成功的模型都始於明確的問題定義!

  • 核心思考:你的模型想要達到什麼目的?

例如:是要偵測每一筆交易是否涉及洗錢,還是要從大量資料中找出可能的洗錢關聯戶?

2. 數據檢查

數據是模型的基石,但不是所有數據都是有用的!

  • 核心思考:你的數據夠嗎?時間分佈如何?正負樣本平衡嗎?

例如:假如你想找出長期進行洗錢的戶頭,但手上只有一週的交易數據,那麼這樣的數據可能不足以捕捉到洗錢的整體模式。

3. 業務知識

數據可以告訴你什麼,但業務知識可以告訴你為什麼!

  • 核心思考:如何結合領域知識來提煉更有力的特徵?

例如:過去的洗錢案例可能顯示,洗錢者經常在深夜進行大量小額交易。這樣的業務知識可以幫助你設計出針對這種模式的特徵。

特徵工程是資料科學中的實務和科學的結合。它需要數據技巧、業務洞察,以及不斷的嘗試和學習。與領域專家緊密合作,將使模型從眾多模型中脫穎而出!

一起加油吧!!!我們下次見,

32會員
37內容數
歡迎來到《桃花源記》專欄。這裡不僅是一個文字的集合,更是一個探索、夢想和自我發現的空間。在這個專欄中,我們將一同走進那些隱藏在日常生活中的"桃花源"——那些讓我們心動、讓我們反思、讓我們找到內心平靜的時刻和地方
留言0
查看全部
發表第一個留言支持創作者!
Karen的沙龍 的其他內容
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
最近有採購幾台 server ,正在進行一些設定的作業,把這些過程都保留下來,之後要再設定就可以回來查看了~~~ 目標 在 Centos Linux 主機上移除 Podman ,並安裝 Docker 解決 首先先確認 Centos 的版本,是 Debian or Fedora cat /
最近在調整跟優化效能時,又來複習了 Multi-threading 和 Multiprocessing 的概念,在面對大數據時,能夠有效利用多核心處理器的能力,對於提升程式執行效能至關重要。 Python 提供多線程(Multi-threading) 和多進程 (Multiprocessing)
How to utilize batch input and multi-processing techniques to accelerate feature engineering? 問題 在進行特徵工程的過程中,我們通常需要處理各種各樣的數據,並轉換它們成有意義的特徵,以供後續的模型訓練
How to access feature names in a trained XGB model ? 故事是這樣的... 在接手某個專案中,取得了一份已經訓練好的 pickle 檔案記載著 XGBoost model weight ,但因為 feature engineering 的程式碼交
matplotlib 無法顯示中文,看了很多篇教學文都無效 mac 解法可以參考這篇...
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
最近有採購幾台 server ,正在進行一些設定的作業,把這些過程都保留下來,之後要再設定就可以回來查看了~~~ 目標 在 Centos Linux 主機上移除 Podman ,並安裝 Docker 解決 首先先確認 Centos 的版本,是 Debian or Fedora cat /
最近在調整跟優化效能時,又來複習了 Multi-threading 和 Multiprocessing 的概念,在面對大數據時,能夠有效利用多核心處理器的能力,對於提升程式執行效能至關重要。 Python 提供多線程(Multi-threading) 和多進程 (Multiprocessing)
How to utilize batch input and multi-processing techniques to accelerate feature engineering? 問題 在進行特徵工程的過程中,我們通常需要處理各種各樣的數據,並轉換它們成有意義的特徵,以供後續的模型訓練
How to access feature names in a trained XGB model ? 故事是這樣的... 在接手某個專案中,取得了一份已經訓練好的 pickle 檔案記載著 XGBoost model weight ,但因為 feature engineering 的程式碼交
matplotlib 無法顯示中文,看了很多篇教學文都無效 mac 解法可以參考這篇...
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
索尼的《星鳴特攻》成為熱門話題,卻因為在短短兩週內即關閉伺服器,成為電玩遊戲史上虧損金額最高的事件。文章探討了其製作團隊的背景、巨額製作成本以及遊戲失敗的原因,包括角色設計爭議、玩法缺乏創新、人氣不足及市場競爭激烈等多重因素,最終帶來的啟示是成功的遊戲需要的不僅是資金,更需創意和活躍的玩家社區。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求
Thumbnail
在數據科學和機器學習中,特徵工程是提高模型性能的關鍵步驟之一,通過創建新特徵或轉換現有特徵,我們可以更好地捕捉數據中的信息,提高模型的預測能力。然而,當處理大數據集時,特徵工程可能變得耗時,而且若是在研發階段,特徵其實是需要快速迭代去產生並且做後續的實驗,這也是近期遇到的問題,因此想在這篇文章實作多
Thumbnail
我發現你很會忍! 對,我真的很會忍。 忍,好像是我們家的家教,而且屬於身教的那一種。 我媽很會忍。職業婦女,每天煮晚餐,一家十一口。從我哥到我,至少維持二十年。 我爸很會忍。家族長子,生養三個小孩外加兩個大孩,和大孩的家庭,一家十一口。現在還繼續,這樣的忍耐或許要長達一輩子的。 每當我感覺要放棄
Thumbnail
Onshape 特徵工具列功能工具欄
月亮反海王星人:月亮與海王星對分相,感覺最混亂、受傷的相位,反海王星人至少還有一個持續發光發熱並且堅定的太陽,但月反海王星人卻有兩個反射體,等於站在兩面鏡子之中,不管往左看往右看,都是一面無限延伸的通道。如果說海王星帶來雙重性,那月反海王星人就可以延伸出更多種的分裂可能
月亮海王星人: 月亮與海王星合相,感覺最雙魚的相位,就算沒有任何個人星體落入雙魚12宮,都無損你的夢幻公主氣質。月亮是反射太陽光的地球衛星,而海王星則在月亮背後再加以渲染,等於是霧中之后,能在情感上沒有限制的滲透與擴散。
Thumbnail
反海王星人: 太陽與海王星對分相,如果說日海合是天生的演員,那日海衝就是不想演戲卻被逼著上台的演員。此時海王星在太陽的對面,一起包夾地球,某些時刻會讓你覺得有如海王星人一般,因為海面反射了太陽光,讓你產生有兩個太陽的錯覺。
Thumbnail
經濟衰退會不會發生?這個問題很難回答,但我們認為市場已經在為經濟衰退定價,而滿手現金的基金經理人與投資人,可能也會伺機布局,但該投資什麼呢?「邏輯投資」提出一些建議供讀者參考。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
索尼的《星鳴特攻》成為熱門話題,卻因為在短短兩週內即關閉伺服器,成為電玩遊戲史上虧損金額最高的事件。文章探討了其製作團隊的背景、巨額製作成本以及遊戲失敗的原因,包括角色設計爭議、玩法缺乏創新、人氣不足及市場競爭激烈等多重因素,最終帶來的啟示是成功的遊戲需要的不僅是資金,更需創意和活躍的玩家社區。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求
Thumbnail
在數據科學和機器學習中,特徵工程是提高模型性能的關鍵步驟之一,通過創建新特徵或轉換現有特徵,我們可以更好地捕捉數據中的信息,提高模型的預測能力。然而,當處理大數據集時,特徵工程可能變得耗時,而且若是在研發階段,特徵其實是需要快速迭代去產生並且做後續的實驗,這也是近期遇到的問題,因此想在這篇文章實作多
Thumbnail
我發現你很會忍! 對,我真的很會忍。 忍,好像是我們家的家教,而且屬於身教的那一種。 我媽很會忍。職業婦女,每天煮晚餐,一家十一口。從我哥到我,至少維持二十年。 我爸很會忍。家族長子,生養三個小孩外加兩個大孩,和大孩的家庭,一家十一口。現在還繼續,這樣的忍耐或許要長達一輩子的。 每當我感覺要放棄
Thumbnail
Onshape 特徵工具列功能工具欄
月亮反海王星人:月亮與海王星對分相,感覺最混亂、受傷的相位,反海王星人至少還有一個持續發光發熱並且堅定的太陽,但月反海王星人卻有兩個反射體,等於站在兩面鏡子之中,不管往左看往右看,都是一面無限延伸的通道。如果說海王星帶來雙重性,那月反海王星人就可以延伸出更多種的分裂可能
月亮海王星人: 月亮與海王星合相,感覺最雙魚的相位,就算沒有任何個人星體落入雙魚12宮,都無損你的夢幻公主氣質。月亮是反射太陽光的地球衛星,而海王星則在月亮背後再加以渲染,等於是霧中之后,能在情感上沒有限制的滲透與擴散。
Thumbnail
反海王星人: 太陽與海王星對分相,如果說日海合是天生的演員,那日海衝就是不想演戲卻被逼著上台的演員。此時海王星在太陽的對面,一起包夾地球,某些時刻會讓你覺得有如海王星人一般,因為海面反射了太陽光,讓你產生有兩個太陽的錯覺。
Thumbnail
經濟衰退會不會發生?這個問題很難回答,但我們認為市場已經在為經濟衰退定價,而滿手現金的基金經理人與投資人,可能也會伺機布局,但該投資什麼呢?「邏輯投資」提出一些建議供讀者參考。