我對合成數據的三個思考:資料效度,傾向分數,前處理的效度損失

更新於 發佈於 閱讀時間約 4 分鐘
raw-image


本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。

首先,本文章有三個有趣的實驗問題:

  1. 資料前處理(Data-Preprocession)對合成數據效度的影響。
  2. 是否需要對合成的機器學習模型調參(Tuning)。
  3. 效度測量是否能預測合成數據訓練的機器學習模型的準確度。

這篇文章呈現下面三個思考:

  1. 資料效度,是數據集對分析任務合適度的測量
  2. 傾向分數,是實踐全局資料效度的一個形式
  3. 前處理,可能存在全局資料效度的代價

思考 #1:資料效度,度量數據集對分析與處理的合適度

資料效度 (Data Utility)試圖測量數據是否適合做處理與分析。

資料效度有兩種分類,分別為全局效度測度(Global Utility Measure)與分析特定效度測度(Analysis-Specific Utility Measure)。其白話的定義如下:

  1. 全局效度測度:合成數據集的總體效度。
  2. 分析特定效度測度:放出的合成數據,在復限特定分析時的效度。

我們現在研究的,算是分析特定效度測度,需要進一步思考。

思考 #2傾向分數,是實踐全局資料效度的一個形式

傾向分數 (Propensity Score)

  • 傾向分數,是一種不可分辨性度量(Distinguishability metrics)。
  • 傾向分數,是一個數據是否來自真實數據集的機率。
  • 傾向分數愈大,合成數據集與原數據集在分佈上愈相似。

傾向分數實際執行是用二元分類器。但不知道如何具體實踐?

思考 #3:前處理,可能存在全局資料效度的代價

前處理的三個內容

  1. 設算資料遺失值 (Imputing missing values in the data)
  2. 編碼類別變數為整數 (Encoding categorical values as integers)
  3. 標準化數值特徵 (Standardizing numeric features)

數據生成路徑:是資料前處理後做合成數據,還是先做合成數據後再做資料前處理?

  • 方法一:直接使用原真實數據,進行合成。
  • 方法二:先對真實數據做前處理,後進行合成。

文章的觀察是,方法一的直接用原真實數據進行合成,其傾向分數較高,合成數據集更能「複製」原真實數據集。

這個結論感覺還是與怎麼前處理有關?而且也與傾向分數如何算有關,有待進一步探索。

我們在詐欺偵測的數據中,由於取得的原數據早就是主成分分析後的結果了,所以就直接是方法二的狀況。

資料效度,以傾向分數量化,因前處理而損失

本文章探索了合成數據集資料效度相關的概念,引發了兩個問題,有待之後寫文章持續探索。這兩個問題為:

  1. 關於分析特定效度測度(Analysis-Specific Utility Measure)更進一步的思考與研究。(Ref: General and Specific Utility Measures for Synthetic Data)
  2. 關於傾向分數(Propensity Score)更進一步的思考與研究。(Ref: Propensity score estimation: Neural networks, support vector machines, decision trees (CART), and meta-classifiers as alternatives to logistic regression.)

你也對合成數據有興趣嗎?歡迎留言分享你的想法,與我討論。

留言
avatar-img
留言分享你的想法!
avatar-img
紫式講義的沙龍
4會員
23內容數
思考合成數據的各種原理,應用與效果。
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
模型上線前的評估的嚴謹與否,攸關上線後模型的表現。你知道模型評估需要注意哪些細節?在評估過程的嚴謹性又可以如何分級呢?一起來看看吧!
Thumbnail
模型上線前的評估的嚴謹與否,攸關上線後模型的表現。你知道模型評估需要注意哪些細節?在評估過程的嚴謹性又可以如何分級呢?一起來看看吧!
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
Thumbnail
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
Thumbnail
在作模擬的時候,這個準不準這個問題絕對有資格被排在常見問題中的前三名。 當然也是我們首先要問自己的部分。如果人家要拿這份結果去做設計評估,那他的準確性到哪? 如果不能拿來做設計參考,那我們該怎麼解讀? 而準不準的問題,要分成事前諸葛和事後諸葛兩種應用來討論。 事後諸葛的類型 事前諸葛的類型
Thumbnail
在作模擬的時候,這個準不準這個問題絕對有資格被排在常見問題中的前三名。 當然也是我們首先要問自己的部分。如果人家要拿這份結果去做設計評估,那他的準確性到哪? 如果不能拿來做設計參考,那我們該怎麼解讀? 而準不準的問題,要分成事前諸葛和事後諸葛兩種應用來討論。 事後諸葛的類型 事前諸葛的類型
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。 本文章收錄三個思考: 合成數據能夠成為夥伴,還是成為替代呢? 我們關心的是統計任務,還是運營任務呢? 基於合成數據的學習,要怎麼學得好呢? 思考#1:合成數據,是夥伴,還是替代? 有兩個觀點來看合成數據:夥伴,或是替代。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。 本文章收錄三個思考: 合成數據能夠成為夥伴,還是成為替代呢? 我們關心的是統計任務,還是運營任務呢? 基於合成數據的學習,要怎麼學得好呢? 思考#1:合成數據,是夥伴,還是替代? 有兩個觀點來看合成數據:夥伴,或是替代。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
五個步驟培養數感,建立你的數據敏銳度。​面對生活與工作中的數據,多花點心思想一想,有時也能少走一些冤枉路。
Thumbnail
五個步驟培養數感,建立你的數據敏銳度。​面對生活與工作中的數據,多花點心思想一想,有時也能少走一些冤枉路。
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News