我對合成數據使用的三個思考:是夥伴,是替代,還是偏誤

2022/08/04閱讀時間約 4 分鐘
資料來源:https://www.raconteur.net/technology/artificial-advantage-can-synthetic-data-make-ai-less-biased/
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
本文章收錄三個思考:
  1. 合成數據能夠成為夥伴,還是成為替代呢?
  2. 我們關心的是統計任務,還是運營任務呢?
  3. 基於合成數據的學習,要怎麼學得好呢?

思考#1:合成數據,是夥伴,還是替代?

有兩個觀點來看合成數據:夥伴,或是替代。
  1. 夥伴:真實數據在做的事情,合成數據可以「一起」做嗎?(Can we do the same things with synthetic data that we do with real data?)
  2. 替代:真實數據在做的事情,合成數據可以「自己」做嗎?(Can we do the same things to synthetic data that we do to real data?)
你覺得哪個比較合理呢?我覺得後者比較理想。

思考#2:夥伴還是替代,其實還是看想做什麼任務。

合成數據作為夥伴,想做的事是
  1. 建築模型
  2. 實踐資料分析
  3. 檢驗假說
合成數據作為替代,想做的事是
  1. 連結分開的數據集
  2. 延伸合成數據集,當新的紀錄加入原數據集
感覺這兩個理解都有道理,但好像跟我自己理解with與to的角度不一樣。
這邊的with感覺是替代。
這邊的to感覺更是夥伴。
需要繼續寫文章細化。

思考#3:合成數據學習,仍然是大量未知。

主要的擔憂,是隱私數據有偏誤。
A particular concern for private data is bias. Ghalebikesabi et al. [34] warn against the risks of learning from synthetic data, and propose a methodology for learning unbiasedly from such data. Wilde et al. [35] demonstrate superior performance when model parameters are updated using Bayesian inference, rather than approaches that fail to account for the fact the training data is synthetic.
爭議觀點為
  1. 從合成數據去學習,是有風險的。[34] Sahra Ghalebikesabi, Harrison Wilde, Jack Jewson, Arnaud Doucet, Sebastian Vollmer, and Chris Holmes. Bias mitigated learning from differentially private synthetic data: A cautionary tale. arXiv preprint arXiv:2108.10934, 2021. 🤹‍♂️
  2. 貝式推論,去調整模型參數,表現更好。[35] Harrison Wilde, Jack Jewson, Sebastian Vollmer, and Chris Holmes. Foundations of bayesian learning from synthetic data. In International Conference on Artificial Intelligence and Statistics, pages 541–549. PMLR, 2021. 🤯🤯🤯🤯🤯
紫式講義
紫式講義
文字化紀錄平時學習到的底層邏輯。
留言0
查看全部
發表第一個留言支持創作者!