圖片來源:https://towardsdatascience.com/synthetic-data-generation-a-must-have-skill-for-new-data-scientists-915896c0c1ae
這篇文章與你分享,我閱讀
合成數據文章以後,產生的三個思考與理解。
思考#1:合成數據,始於隱私,終於更多的可信任AI元素。
此文章給出8個核心訊息
- 合成數據,是有顯著前景的科技。(Synthetic data is a technology with significant promise.)
- 合成數據,可以加速發展。(Synthetic data can accelerate development.)
- 合成數據,並非天生就有隱私性。(Synthetic data is not automatically private.)
- 合成數據,並非真實數據的替代。(Synthetic data is not a replacement for real data.)
- 離群值很難用保護隱私的方式抓到。(Outliers are hard to capture privately.)
- 只用實驗評估單個數據集的隱私,是很有問題的。(Empirically evaluating the privacy of a single dataset can be problematic.)
- 當生成合成數據,黑盒子模型特別不透明。(Black box models can be particularly opaque when it comes to generating synthetic data.)
- 合成數據不只能幫助隱私。(Synthetic data goes beyond privacy.)
閱讀了這八個訊息以後,我認為合成數據,在研究上有非常多的維度。這個做法讓我們必須專注在數據中心方法(Data-Centric Method),某個程度讓我們傳統使用的數學技術無直接用武之地。年輕的時候玩玩,累積經歷,走長期主義,感覺是有趣的事情。
思考#2:分析合成數據的三個維度,資料科學任務,目的導向模型,數據生成方法
什麼是合成數據呢?這個文件給出的定義為
Definition 1 Synthetic data is data that has been generated using a purpose-built mathematical model or algorithm, with the aim of solving a (set of ) data science task(s).
我對這個定義的中文翻譯如下:合成數據,目標指向解決一組資料科學任務,而根據一個目標導向建築的數學模型或演算法,產生的數據。
由此定義,我們可以列出三個元素
- 資料科學任務 (Data Science Tasks)
- 目的建築數學模型或演算法 (Purpose-built mathematical model or algorithm)
- 生成的數據 (Generated Data)
這三個元素提供我們有用的三個維度,來分析各種關於合成數據的工作。
思考#3:合成數據,是基準真相,也迴避隱私顧慮
下面是關於模擬方法的三個有趣的事實:
- 利用電腦生成合成數據(Computer-generated synthetic data)來解任務,最找可以追到Ulam與von Neumann在1940s年代的蒙地卡羅模擬方法(Monte Carlo simulation methods)。
- 模擬方法在研究常被用,因為他能夠給一種基準真相 (Ground truth),來幫助人去發展與衡量機器學習途徑。
- 現在研究合成數據的驅動,是來自「數據保護法規(Data Protection Regulations)」,希望能用合成數據,來迴避隱私顧慮。
自然之母是否有隱私呢?
相關閱讀清單
- Train on Synthetic, Test on Real (TSTR): https://arxiv.org/pdf/1706.02633.pdf
- Hide-and-Seek Privacy Challenge: Synthetic Data Generation vs. Patient Re-identification. http://proceedings.mlr.press/v133/jordon21a/jordon21a.pdf
- Pate-gan: Generating synthetic data with differential privacy guarantees. https://openreview.net/pdf?id=S1zk9iRqF7
Utility: The utility of synthetic data often is determined by its usefulness for a given task or set of tasks. This often involves contrasting the performance of models trained on real vs synthetic data, and might involve inspecting concrete metrics such as accuracy, precision, root mean-squared error, etc.; and/or model fairness properties such as demographic parity, fairness through unawareness, or conditional fairness [23]. Doing so often requires the Train on Synthetic, Test on Real (TSTR) paradigm [16] in which models are trained on synthetic data and their performance then evaluated on real data