我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

更新於 2022/08/03發佈於 2022/07/30閱讀時間約 4 分鐘

本文章想分享給你，我在閱讀有效合成數據的文章後，產生的理解與思考。

首先，本文章有三個有趣的實驗問題：

這篇文章呈現下面三個思考：

思考 #1：資料效度，度量數據集對分析與處理的合適度

資料效度 (Data Utility)試圖測量數據是否適合做處理與分析。

資料效度有兩種分類，分別為全局效度測度(Global Utility Measure)與分析特定效度測度(Analysis-Specific Utility Measure)。其白話的定義如下：

我們現在研究的，算是分析特定效度測度，需要進一步思考。

傾向分數 (Propensity Score)

傾向分數實際執行是用二元分類器。但不知道如何具體實踐？

前處理的三個內容

數據生成路徑：是資料前處理後做合成數據，還是先做合成數據後再做資料前處理？

文章的觀察是，方法一的直接用原真實數據進行合成，其傾向分數較高，合成數據集更能「複製」原真實數據集。

這個結論感覺還是與怎麼前處理有關？而且也與傾向分數如何算有關，有待進一步探索。

我們在詐欺偵測的數據中，由於取得的原數據早就是主成分分析後的結果了，所以就直接是方法二的狀況。

本文章探索了合成數據集資料效度相關的概念，引發了兩個問題，有待之後寫文章持續探索。這兩個問題為：

你也對合成數據有興趣嗎？歡迎留言分享你的想法，與我討論。

紫式講義的沙龍

4會員

23內容數

思考合成數據的各種原理，應用與效果。

留言

留言分享你的想法！