首先,本文章有三個有趣的實驗問題:
- 資料前處理(Data-Preprocession)對合成數據效度的影響。
- 是否需要對合成的機器學習模型調參(Tuning)。
- 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
這篇文章呈現下面三個思考:
- 資料效度,是數據集對分析任務合適度的測量
- 傾向分數,是實踐全局資料效度的一個形式
- 前處理,可能存在全局資料效度的代價
思考 #1:資料效度,度量數據集對分析與處理的合適度
資料效度 (Data Utility)試圖測量數據是否適合做處理與分析。
資料效度有兩種分類,分別為全局效度測度(Global Utility Measure)與分析特定效度測度(Analysis-Specific Utility Measure)。其白話的定義如下:
- 全局效度測度:合成數據集的總體效度。
- 分析特定效度測度:放出的合成數據,在復限特定分析時的效度。
我們現在研究的,算是分析特定效度測度,需要進一步思考。
思考 #2:傾向分數,是實踐全局資料效度的一個形式
傾向分數 (Propensity Score)
- 傾向分數,是一種不可分辨性度量(Distinguishability metrics)。
- 傾向分數,是一個數據是否來自真實數據集的機率。
- 傾向分數愈大,合成數據集與原數據集在分佈上愈相似。
傾向分數實際執行是用二元分類器。但不知道如何具體實踐?
思考 #3:前處理,可能存在全局資料效度的代價
前處理的三個內容
- 設算資料遺失值 (Imputing missing values in the data)
- 編碼類別變數為整數 (Encoding categorical values as integers)
- 標準化數值特徵 (Standardizing numeric features)
數據生成路徑:是資料前處理後做合成數據,還是先做合成數據後再做資料前處理?
- 方法一:直接使用原真實數據,進行合成。
- 方法二:先對真實數據做前處理,後進行合成。
文章的觀察是,方法一的直接用原真實數據進行合成,其傾向分數較高,合成數據集更能「複製」原真實數據集。
這個結論感覺還是與怎麼前處理有關?而且也與傾向分數如何算有關,有待進一步探索。
我們在詐欺偵測的數據中,由於取得的原數據早就是主成分分析後的結果了,所以就直接是方法二的狀況。
資料效度,以傾向分數量化,因前處理而損失
本文章探索了合成數據集資料效度相關的概念,引發了兩個問題,有待之後寫文章持續探索。這兩個問題為:
- 關於分析特定效度測度(Analysis-Specific Utility Measure)更進一步的思考與研究。(Ref: General and Specific Utility Measures for Synthetic Data)
- 關於傾向分數(Propensity Score)更進一步的思考與研究。(Ref: Propensity score estimation: Neural networks, support vector machines, decision trees (CART), and meta-classifiers as alternatives to logistic regression.)
你也對合成數據有興趣嗎?歡迎留言分享你的想法,與我討論。