特徵工程前的三大核心準備!

更新於 發佈於 閱讀時間約 1 分鐘
raw-image

1. 問題定義

每一個成功的模型都始於明確的問題定義!

  • 核心思考:你的模型想要達到什麼目的?

例如:是要偵測每一筆交易是否涉及洗錢,還是要從大量資料中找出可能的洗錢關聯戶?

2. 數據檢查

數據是模型的基石,但不是所有數據都是有用的!

  • 核心思考:你的數據夠嗎?時間分佈如何?正負樣本平衡嗎?

例如:假如你想找出長期進行洗錢的戶頭,但手上只有一週的交易數據,那麼這樣的數據可能不足以捕捉到洗錢的整體模式。

3. 業務知識

數據可以告訴你什麼,但業務知識可以告訴你為什麼!

  • 核心思考:如何結合領域知識來提煉更有力的特徵?

例如:過去的洗錢案例可能顯示,洗錢者經常在深夜進行大量小額交易。這樣的業務知識可以幫助你設計出針對這種模式的特徵。

特徵工程是資料科學中的實務和科學的結合。它需要數據技巧、業務洞察,以及不斷的嘗試和學習。與領域專家緊密合作,將使模型從眾多模型中脫穎而出!

一起加油吧!!!我們下次見,

留言
avatar-img
留言分享你的想法!
avatar-img
Karen的沙龍
34會員
51內容數
歡迎來到《桃花源記》專欄。這裡不僅是一個文字的集合,更是一個探索、夢想和自我發現的空間。在這個專欄中,我們將一同走進那些隱藏在日常生活中的"桃花源"——那些讓我們心動、讓我們反思、讓我們找到內心平靜的時刻和地方
Karen的沙龍的其他內容
2024/03/06
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
2024/03/06
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
2023/10/30
在數據科學和機器學習中,特徵工程是提高模型性能的關鍵步驟之一,通過創建新特徵或轉換現有特徵,我們可以更好地捕捉數據中的信息,提高模型的預測能力。然而,當處理大數據集時,特徵工程可能變得耗時,而且若是在研發階段,特徵其實是需要快速迭代去產生並且做後續的實驗,這也是近期遇到的問題,因此想在這篇文章實作多
Thumbnail
2023/10/30
在數據科學和機器學習中,特徵工程是提高模型性能的關鍵步驟之一,通過創建新特徵或轉換現有特徵,我們可以更好地捕捉數據中的信息,提高模型的預測能力。然而,當處理大數據集時,特徵工程可能變得耗時,而且若是在研發階段,特徵其實是需要快速迭代去產生並且做後續的實驗,這也是近期遇到的問題,因此想在這篇文章實作多
Thumbnail
2023/08/15
最近在調整跟優化效能時,又來複習了 Multi-threading 和 Multiprocessing 的概念,在面對大數據時,能夠有效利用多核心處理器的能力,對於提升程式執行效能至關重要。 Python 提供多線程(Multi-threading) 和多進程 (Multiprocessing)
Thumbnail
2023/08/15
最近在調整跟優化效能時,又來複習了 Multi-threading 和 Multiprocessing 的概念,在面對大數據時,能夠有效利用多核心處理器的能力,對於提升程式執行效能至關重要。 Python 提供多線程(Multi-threading) 和多進程 (Multiprocessing)
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
富貴險中求,下一句是…?斷章取義,並非是好事!AI在走,我們的知識也要有,任何人都可以學習應用的實用知識,一起快樂讀好書!〔一看就會!圖解「工作,分析了再做」〕
Thumbnail
富貴險中求,下一句是…?斷章取義,並非是好事!AI在走,我們的知識也要有,任何人都可以學習應用的實用知識,一起快樂讀好書!〔一看就會!圖解「工作,分析了再做」〕
Thumbnail
1. 問題定義 每一個成功的模型都始於明確的問題定義! 核心思考:你的模型想要達到什麼目的? 例如:是要偵測每一筆交易是否涉及洗錢,還是要從大量資料中找出可能的洗錢關聯戶? 2. 數據檢查 數據是模型的基石,但不是所有數據都是有用的! 核心思考:你的數據夠嗎?時間分佈如何?正負樣本
Thumbnail
1. 問題定義 每一個成功的模型都始於明確的問題定義! 核心思考:你的模型想要達到什麼目的? 例如:是要偵測每一筆交易是否涉及洗錢,還是要從大量資料中找出可能的洗錢關聯戶? 2. 數據檢查 數據是模型的基石,但不是所有數據都是有用的! 核心思考:你的數據夠嗎?時間分佈如何?正負樣本
Thumbnail
大數據在金融領域的角色是什麼?它如何改變我們的生活? 大數據是指數據的龐大量、速度和多樣性,需要專業的技能來處理和分析。在金融領域,大數據的應用可以幫助金融機構分析客戶行為、評估風險、優化投資組合等。
Thumbnail
大數據在金融領域的角色是什麼?它如何改變我們的生活? 大數據是指數據的龐大量、速度和多樣性,需要專業的技能來處理和分析。在金融領域,大數據的應用可以幫助金融機構分析客戶行為、評估風險、優化投資組合等。
Thumbnail
今天又有一篇文章,我只能夠發佈在付費社群和官網(ztrading.io) 以避免被和諧, 裡面有一些比較重要的數據和圖表,在此就不做贅述。 今天聊聊交易和投資,以及交易和投資中最容易犯下的錯誤。
Thumbnail
今天又有一篇文章,我只能夠發佈在付費社群和官網(ztrading.io) 以避免被和諧, 裡面有一些比較重要的數據和圖表,在此就不做贅述。 今天聊聊交易和投資,以及交易和投資中最容易犯下的錯誤。
Thumbnail
劉潤在這本《商業洞察力》中談的就是系統思考的運用:如何搭建系統模型?如何運用系統模型看懂一個局,從而改變這個局朝向我們期望的方向發展?如果你曾經看過《系統思考》這本書,那麼劉潤的《商業洞察力》可以說是它的商業科普版。在這篇文章中,我記錄了閱讀這本書的觀點摘要,以及運用在自身的商模打造上。
Thumbnail
劉潤在這本《商業洞察力》中談的就是系統思考的運用:如何搭建系統模型?如何運用系統模型看懂一個局,從而改變這個局朝向我們期望的方向發展?如果你曾經看過《系統思考》這本書,那麼劉潤的《商業洞察力》可以說是它的商業科普版。在這篇文章中,我記錄了閱讀這本書的觀點摘要,以及運用在自身的商模打造上。
Thumbnail
即便我們知道如何從各來源取得資訊,並且了解它們的生成方式、所經歷的資料處理過程,與發布者所提供的解讀方式,但這樣其實仍遠遠不夠。我們不只要有辦法更深入解讀每一筆資訊,更要能夠整合各種看似不相干的資訊,以組織出別人尚未察覺出的洞見。這樣的能力姑且稱為分析力,這是本篇所要探討的項目。
Thumbnail
即便我們知道如何從各來源取得資訊,並且了解它們的生成方式、所經歷的資料處理過程,與發布者所提供的解讀方式,但這樣其實仍遠遠不夠。我們不只要有辦法更深入解讀每一筆資訊,更要能夠整合各種看似不相干的資訊,以組織出別人尚未察覺出的洞見。這樣的能力姑且稱為分析力,這是本篇所要探討的項目。
Thumbnail
002 如何學習理財規劃? 在學習理財規劃時,許多讀者困惑的問題是:「專家的話該不該聽?如果要聽,何時該聽?該聽多少?」在麥爾坎.葛拉威爾《決斷兩秒間》的書中就有談論這個問題......
Thumbnail
002 如何學習理財規劃? 在學習理財規劃時,許多讀者困惑的問題是:「專家的話該不該聽?如果要聽,何時該聽?該聽多少?」在麥爾坎.葛拉威爾《決斷兩秒間》的書中就有談論這個問題......
Thumbnail
資料科學(Data Science)應該是繼AI之前,大家最關注的議題,如何運用數據分析瞄準目標客群,制定不同的行銷策略,已經是每個產業必備技能。 然而在建立市場行銷模型時,我們大多先以「射飛鏢」的方式,從無數個變數中,挑初一、二個做為初步劃分市場的區隔,經由修正與調整建立市場行銷模型,評估行銷成效
Thumbnail
資料科學(Data Science)應該是繼AI之前,大家最關注的議題,如何運用數據分析瞄準目標客群,制定不同的行銷策略,已經是每個產業必備技能。 然而在建立市場行銷模型時,我們大多先以「射飛鏢」的方式,從無數個變數中,挑初一、二個做為初步劃分市場的區隔,經由修正與調整建立市場行銷模型,評估行銷成效
Thumbnail
為了求得真知灼見,知識的累積與提煉是關鍵,仰賴的是自身的資訊力與分析力。當市場上多數人恐懼或茫然時,你感受到的是源自充足的資訊佐證帶來的心安,與分析思考演練帶來的熟稔,而此時眼前盡是投資機會等你採行。
Thumbnail
為了求得真知灼見,知識的累積與提煉是關鍵,仰賴的是自身的資訊力與分析力。當市場上多數人恐懼或茫然時,你感受到的是源自充足的資訊佐證帶來的心安,與分析思考演練帶來的熟稔,而此時眼前盡是投資機會等你採行。
Thumbnail
最近,我看到的關於市場或產品分析的文章,都有著同樣的問題,而這樣的問題,不斷地重複出現在不同作者、不同文章當中,讓我開始懷疑起自己是不是要求太多? 因為,這些文章通常都長篇大論、引經據典,並且詳盡搜集數據進行分析,過程和思路都非常精彩,但是在最後,卻只提出了靠「常識」就能知道的答案。
Thumbnail
最近,我看到的關於市場或產品分析的文章,都有著同樣的問題,而這樣的問題,不斷地重複出現在不同作者、不同文章當中,讓我開始懷疑起自己是不是要求太多? 因為,這些文章通常都長篇大論、引經據典,並且詳盡搜集數據進行分析,過程和思路都非常精彩,但是在最後,卻只提出了靠「常識」就能知道的答案。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News