我對合成數據的三個思考:資料效度,傾向分數,前處理的效度損失

2022/07/30閱讀時間約 3 分鐘
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。
首先,本文章有三個有趣的實驗問題:
  1. 資料前處理(Data-Preprocession)對合成數據效度的影響。
  2. 是否需要對合成的機器學習模型調參(Tuning)。
  3. 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
這篇文章呈現下面三個思考:
  1. 資料效度,是數據集對分析任務合適度的測量
  2. 傾向分數,是實踐全局資料效度的一個形式
  3. 前處理,可能存在全局資料效度的代價

思考 #1:資料效度,度量數據集對分析與處理的合適度

資料效度 (Data Utility)試圖測量數據是否適合做處理與分析。
資料效度有兩種分類,分別為全局效度測度(Global Utility Measure)與分析特定效度測度(Analysis-Specific Utility Measure)。其白話的定義如下:
  1. 全局效度測度:合成數據集的總體效度。
  2. 分析特定效度測度:放出的合成數據,在復限特定分析時的效度。
我們現在研究的,算是分析特定效度測度,需要進一步思考。

思考 #2傾向分數,是實踐全局資料效度的一個形式

傾向分數 (Propensity Score)
  • 傾向分數,是一種不可分辨性度量(Distinguishability metrics)。
  • 傾向分數,是一個數據是否來自真實數據集的機率。
  • 傾向分數愈大,合成數據集與原數據集在分佈上愈相似。
傾向分數實際執行是用二元分類器。但不知道如何具體實踐?

思考 #3:前處理,可能存在全局資料效度的代價

前處理的三個內容
  1. 設算資料遺失值 (Imputing missing values in the data)
  2. 編碼類別變數為整數 (Encoding categorical values as integers)
  3. 標準化數值特徵 (Standardizing numeric features)
數據生成路徑:是資料前處理後做合成數據,還是先做合成數據後再做資料前處理?
  • 方法一:直接使用原真實數據,進行合成。
  • 方法二:先對真實數據做前處理,後進行合成。
文章的觀察是,方法一的直接用原真實數據進行合成,其傾向分數較高,合成數據集更能「複製」原真實數據集。
這個結論感覺還是與怎麼前處理有關?而且也與傾向分數如何算有關,有待進一步探索。
我們在詐欺偵測的數據中,由於取得的原數據早就是主成分分析後的結果了,所以就直接是方法二的狀況。

資料效度,以傾向分數量化,因前處理而損失

本文章探索了合成數據集資料效度相關的概念,引發了兩個問題,有待之後寫文章持續探索。這兩個問題為:
  1. 關於分析特定效度測度(Analysis-Specific Utility Measure)更進一步的思考與研究。(Ref: General and Specific Utility Measures for Synthetic Data)
  2. 關於傾向分數(Propensity Score)更進一步的思考與研究。(Ref: Propensity score estimation: Neural networks, support vector machines, decision trees (CART), and meta-classifiers as alternatives to logistic regression.)
你也對合成數據有興趣嗎?歡迎留言分享你的想法,與我討論。
紫式講義
紫式講義
文字化紀錄平時學習到的底層邏輯。
留言0
查看全部
發表第一個留言支持創作者!
從 Google News 追蹤更多 vocus 的最新精選內容