我對合成數據的三個思考:資料效度,傾向分數,前處理的效度損失

閱讀時間約 3 分鐘
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。
首先,本文章有三個有趣的實驗問題:
  1. 資料前處理(Data-Preprocession)對合成數據效度的影響。
  2. 是否需要對合成的機器學習模型調參(Tuning)。
  3. 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
這篇文章呈現下面三個思考:
  1. 資料效度,是數據集對分析任務合適度的測量
  2. 傾向分數,是實踐全局資料效度的一個形式
  3. 前處理,可能存在全局資料效度的代價

思考 #1:資料效度,度量數據集對分析與處理的合適度

資料效度 (Data Utility)試圖測量數據是否適合做處理與分析。
資料效度有兩種分類,分別為全局效度測度(Global Utility Measure)與分析特定效度測度(Analysis-Specific Utility Measure)。其白話的定義如下:
  1. 全局效度測度:合成數據集的總體效度。
  2. 分析特定效度測度:放出的合成數據,在復限特定分析時的效度。
我們現在研究的,算是分析特定效度測度,需要進一步思考。

思考 #2傾向分數,是實踐全局資料效度的一個形式

傾向分數 (Propensity Score)
  • 傾向分數,是一種不可分辨性度量(Distinguishability metrics)。
  • 傾向分數,是一個數據是否來自真實數據集的機率。
  • 傾向分數愈大,合成數據集與原數據集在分佈上愈相似。
傾向分數實際執行是用二元分類器。但不知道如何具體實踐?

思考 #3:前處理,可能存在全局資料效度的代價

前處理的三個內容
  1. 設算資料遺失值 (Imputing missing values in the data)
  2. 編碼類別變數為整數 (Encoding categorical values as integers)
  3. 標準化數值特徵 (Standardizing numeric features)
數據生成路徑:是資料前處理後做合成數據,還是先做合成數據後再做資料前處理?
  • 方法一:直接使用原真實數據,進行合成。
  • 方法二:先對真實數據做前處理,後進行合成。
文章的觀察是,方法一的直接用原真實數據進行合成,其傾向分數較高,合成數據集更能「複製」原真實數據集。
這個結論感覺還是與怎麼前處理有關?而且也與傾向分數如何算有關,有待進一步探索。
我們在詐欺偵測的數據中,由於取得的原數據早就是主成分分析後的結果了,所以就直接是方法二的狀況。

資料效度,以傾向分數量化,因前處理而損失

本文章探索了合成數據集資料效度相關的概念,引發了兩個問題,有待之後寫文章持續探索。這兩個問題為:
  1. 關於分析特定效度測度(Analysis-Specific Utility Measure)更進一步的思考與研究。(Ref: General and Specific Utility Measures for Synthetic Data)
  2. 關於傾向分數(Propensity Score)更進一步的思考與研究。(Ref: Propensity score estimation: Neural networks, support vector machines, decision trees (CART), and meta-classifiers as alternatives to logistic regression.)
你也對合成數據有興趣嗎?歡迎留言分享你的想法,與我討論。
avatar-img
4會員
23內容數
思考合成數據的各種原理,應用與效果。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
本篇文章介紹了一種簡單但正確的評估方法,以投資評估總分和本益比為依據,給出了公司的投資評級,並以臺積電和NVDA作為範例。文章還提到了演算法的重要性,以及執行長數學的思路。建議投資者試用這種投資策略來輔助自己的投資。
Thumbnail
本文探討了監督式學習、分群和相似度這幾個推薦系統算法,分別討論了它們的優點、缺點以及適用場景。這些算法在推薦系統中扮演著重要角色,並透過特徵選擇與預處理、相似度度量和鄰居的選擇等關鍵因素進行深入分析。文章最後提出在選擇推薦系統算法時應該考慮的因素,以及未來的研究方向。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
本篇文章介紹了一種簡單但正確的評估方法,以投資評估總分和本益比為依據,給出了公司的投資評級,並以臺積電和NVDA作為範例。文章還提到了演算法的重要性,以及執行長數學的思路。建議投資者試用這種投資策略來輔助自己的投資。
Thumbnail
本文探討了監督式學習、分群和相似度這幾個推薦系統算法,分別討論了它們的優點、缺點以及適用場景。這些算法在推薦系統中扮演著重要角色,並透過特徵選擇與預處理、相似度度量和鄰居的選擇等關鍵因素進行深入分析。文章最後提出在選擇推薦系統算法時應該考慮的因素,以及未來的研究方向。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求