我對合成數據使用的三個思考:是夥伴,是替代,還是偏誤

更新 發佈閱讀 4 分鐘
raw-image


這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。

本文章收錄三個思考:

  1. 合成數據能夠成為夥伴,還是成為替代呢?
  2. 我們關心的是統計任務,還是運營任務呢?
  3. 基於合成數據的學習,要怎麼學得好呢?

思考#1:合成數據,是夥伴,還是替代?

有兩個觀點來看合成數據:夥伴,或是替代。

  1. 夥伴:真實數據在做的事情,合成數據可以「一起」做嗎?(Can we do the same things with synthetic data that we do with real data?)
  2. 替代:真實數據在做的事情,合成數據可以「自己」做嗎?(Can we do the same things to synthetic data that we do to real data?)

你覺得哪個比較合理呢?我覺得後者比較理想。

思考#2:夥伴還是替代,其實還是看想做什麼任務。

合成數據作為夥伴,想做的事是

  1. 建築模型
  2. 實踐資料分析
  3. 檢驗假說

合成數據作為替代,想做的事是

  1. 連結分開的數據集
  2. 延伸合成數據集,當新的紀錄加入原數據集

感覺這兩個理解都有道理,但好像跟我自己理解with與to的角度不一樣。

這邊的with感覺是替代。

這邊的to感覺更是夥伴。

需要繼續寫文章細化。

思考#3:合成數據學習,仍然是大量未知。

主要的擔憂,是隱私數據有偏誤。

A particular concern for private data is bias. Ghalebikesabi et al. [34] warn against the risks of learning from synthetic data, and propose a methodology for learning unbiasedly from such data. Wilde et al. [35] demonstrate superior performance when model parameters are updated using Bayesian inference, rather than approaches that fail to account for the fact the training data is synthetic.

爭議觀點為

  1. 從合成數據去學習,是有風險的。[34] Sahra Ghalebikesabi, Harrison Wilde, Jack Jewson, Arnaud Doucet, Sebastian Vollmer, and Chris Holmes. Bias mitigated learning from differentially private synthetic data: A cautionary tale. arXiv preprint arXiv:2108.10934, 2021. 🤹‍♂️
  2. 貝式推論,去調整模型參數,表現更好。[35] Harrison Wilde, Jack Jewson, Sebastian Vollmer, and Chris Holmes. Foundations of bayesian learning from synthetic data. In International Conference on Artificial Intelligence and Statistics, pages 541–549. PMLR, 2021. 🤯🤯🤯🤯🤯


留言
avatar-img
留言分享你的想法!
avatar-img
紫式講義的沙龍
4會員
23內容數
思考合成數據的各種原理,應用與效果。
你可能也想看
Thumbnail
身為新手媽媽,育兒生活讓你無法逛街?別擔心!本文精選多款網購必備母嬰用品,包含寶寶粥、尿布、玩具、童書、衣物和育成椅,並分享實用的省錢購物技巧,讓你輕鬆購得好物,享受聰明網購樂趣。另有蝦皮雙11購物節與分潤計畫介紹,幫助你省荷包,開創斜槓收入。
Thumbnail
身為新手媽媽,育兒生活讓你無法逛街?別擔心!本文精選多款網購必備母嬰用品,包含寶寶粥、尿布、玩具、童書、衣物和育成椅,並分享實用的省錢購物技巧,讓你輕鬆購得好物,享受聰明網購樂趣。另有蝦皮雙11購物節與分潤計畫介紹,幫助你省荷包,開創斜槓收入。
Thumbnail
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
Thumbnail
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
Thumbnail
2023年5月,我在UCLA做合成數據(Synthetic Data)的研究。 我正規劃撰寫組內的學術Newsletter,讓他變成重要的知識平台,探索合成數據的各種可能性,分享研究想法。 以下是目前我規劃撰寫學術Newsletter,打造豐富合成數據專欄的3個策略:
Thumbnail
2023年5月,我在UCLA做合成數據(Synthetic Data)的研究。 我正規劃撰寫組內的學術Newsletter,讓他變成重要的知識平台,探索合成數據的各種可能性,分享研究想法。 以下是目前我規劃撰寫學術Newsletter,打造豐富合成數據專欄的3個策略:
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。 本文章收錄三個思考: 合成數據能夠成為夥伴,還是成為替代呢? 我們關心的是統計任務,還是運營任務呢? 基於合成數據的學習,要怎麼學得好呢? 思考#1:合成數據,是夥伴,還是替代? 有兩個觀點來看合成數據:夥伴,或是替代。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。 本文章收錄三個思考: 合成數據能夠成為夥伴,還是成為替代呢? 我們關心的是統計任務,還是運營任務呢? 基於合成數據的學習,要怎麼學得好呢? 思考#1:合成數據,是夥伴,還是替代? 有兩個觀點來看合成數據:夥伴,或是替代。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
Thumbnail
本文章分享閱讀關於可解釋性的文章後,產生的三個思考理解。 利用真實數據訓練,可解釋性與準確度的權衡,是很常聽到的現象。 研究的主題,則是去問說:「這個權衡,如果改成合成數據訓練的話,是否還是有這種現象?」
Thumbnail
本文章分享閱讀關於可解釋性的文章後,產生的三個思考理解。 利用真實數據訓練,可解釋性與準確度的權衡,是很常聽到的現象。 研究的主題,則是去問說:「這個權衡,如果改成合成數據訓練的話,是否還是有這種現象?」
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
你可以不懂統計,但不能不知道統計思維,尤其在這個大數據時代。​這能讓你更好地解讀身邊的資訊,運用這些資訊來做出更好的決定與判斷。
Thumbnail
你可以不懂統計,但不能不知道統計思維,尤其在這個大數據時代。​這能讓你更好地解讀身邊的資訊,運用這些資訊來做出更好的決定與判斷。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News