我對合成數據使用的三個思考:是夥伴,是替代,還是偏誤

更新 發佈閱讀 4 分鐘
raw-image


這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。

本文章收錄三個思考:

  1. 合成數據能夠成為夥伴,還是成為替代呢?
  2. 我們關心的是統計任務,還是運營任務呢?
  3. 基於合成數據的學習,要怎麼學得好呢?

思考#1:合成數據,是夥伴,還是替代?

有兩個觀點來看合成數據:夥伴,或是替代。

  1. 夥伴:真實數據在做的事情,合成數據可以「一起」做嗎?(Can we do the same things with synthetic data that we do with real data?)
  2. 替代:真實數據在做的事情,合成數據可以「自己」做嗎?(Can we do the same things to synthetic data that we do to real data?)

你覺得哪個比較合理呢?我覺得後者比較理想。

思考#2:夥伴還是替代,其實還是看想做什麼任務。

合成數據作為夥伴,想做的事是

  1. 建築模型
  2. 實踐資料分析
  3. 檢驗假說

合成數據作為替代,想做的事是

  1. 連結分開的數據集
  2. 延伸合成數據集,當新的紀錄加入原數據集

感覺這兩個理解都有道理,但好像跟我自己理解with與to的角度不一樣。

這邊的with感覺是替代。

這邊的to感覺更是夥伴。

需要繼續寫文章細化。

思考#3:合成數據學習,仍然是大量未知。

主要的擔憂,是隱私數據有偏誤。

A particular concern for private data is bias. Ghalebikesabi et al. [34] warn against the risks of learning from synthetic data, and propose a methodology for learning unbiasedly from such data. Wilde et al. [35] demonstrate superior performance when model parameters are updated using Bayesian inference, rather than approaches that fail to account for the fact the training data is synthetic.

爭議觀點為

  1. 從合成數據去學習,是有風險的。[34] Sahra Ghalebikesabi, Harrison Wilde, Jack Jewson, Arnaud Doucet, Sebastian Vollmer, and Chris Holmes. Bias mitigated learning from differentially private synthetic data: A cautionary tale. arXiv preprint arXiv:2108.10934, 2021. 🤹‍♂️
  2. 貝式推論,去調整模型參數,表現更好。[35] Harrison Wilde, Jack Jewson, Sebastian Vollmer, and Chris Holmes. Foundations of bayesian learning from synthetic data. In International Conference on Artificial Intelligence and Statistics, pages 541–549. PMLR, 2021. 🤯🤯🤯🤯🤯


留言
avatar-img
留言分享你的想法!
avatar-img
紫式講義的沙龍
4會員
23內容數
思考合成數據的各種原理,應用與效果。
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
Thumbnail
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
Thumbnail
2023年5月,我在UCLA做合成數據(Synthetic Data)的研究。 我正規劃撰寫組內的學術Newsletter,讓他變成重要的知識平台,探索合成數據的各種可能性,分享研究想法。 以下是目前我規劃撰寫學術Newsletter,打造豐富合成數據專欄的3個策略:
Thumbnail
2023年5月,我在UCLA做合成數據(Synthetic Data)的研究。 我正規劃撰寫組內的學術Newsletter,讓他變成重要的知識平台,探索合成數據的各種可能性,分享研究想法。 以下是目前我規劃撰寫學術Newsletter,打造豐富合成數據專欄的3個策略:
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。 本文章收錄三個思考: 合成數據能夠成為夥伴,還是成為替代呢? 我們關心的是統計任務,還是運營任務呢? 基於合成數據的學習,要怎麼學得好呢? 思考#1:合成數據,是夥伴,還是替代? 有兩個觀點來看合成數據:夥伴,或是替代。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。 本文章收錄三個思考: 合成數據能夠成為夥伴,還是成為替代呢? 我們關心的是統計任務,還是運營任務呢? 基於合成數據的學習,要怎麼學得好呢? 思考#1:合成數據,是夥伴,還是替代? 有兩個觀點來看合成數據:夥伴,或是替代。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
Thumbnail
本文章分享閱讀關於可解釋性的文章後,產生的三個思考理解。 利用真實數據訓練,可解釋性與準確度的權衡,是很常聽到的現象。 研究的主題,則是去問說:「這個權衡,如果改成合成數據訓練的話,是否還是有這種現象?」
Thumbnail
本文章分享閱讀關於可解釋性的文章後,產生的三個思考理解。 利用真實數據訓練,可解釋性與準確度的權衡,是很常聽到的現象。 研究的主題,則是去問說:「這個權衡,如果改成合成數據訓練的話,是否還是有這種現象?」
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
你可以不懂統計,但不能不知道統計思維,尤其在這個大數據時代。​這能讓你更好地解讀身邊的資訊,運用這些資訊來做出更好的決定與判斷。
Thumbnail
你可以不懂統計,但不能不知道統計思維,尤其在這個大數據時代。​這能讓你更好地解讀身邊的資訊,運用這些資訊來做出更好的決定與判斷。
Thumbnail
貝氏推論(Bayesian Inference)是一種著名的推論方式。 貓貓在此稍作介紹。
Thumbnail
貝氏推論(Bayesian Inference)是一種著名的推論方式。 貓貓在此稍作介紹。
Thumbnail
此篇的來歷,是由於近期好友們逐漸知道我的近況而開始訊問並有了想轉換領域的想法,或許是因為年紀到30歲這階段,真的就會開始反思過往,然後遙想未來,雖然對本科的人來說這就是一個技能一份工作而已,但從轉換跑道的角度來看,不該只拿著“鐵鎚”去看待這樣的環境,而是隨時去挖掘機會,探索任何可能!這便是資料科學家
Thumbnail
此篇的來歷,是由於近期好友們逐漸知道我的近況而開始訊問並有了想轉換領域的想法,或許是因為年紀到30歲這階段,真的就會開始反思過往,然後遙想未來,雖然對本科的人來說這就是一個技能一份工作而已,但從轉換跑道的角度來看,不該只拿著“鐵鎚”去看待這樣的環境,而是隨時去挖掘機會,探索任何可能!這便是資料科學家
Thumbnail
十幾年前還在上班累積操作資金的時候(沒辦法! 沒有富爸爸), 從事的是資料科學(data science)相關, 也是Oracle ERP的data architect, 並受過SAP Data Warehousing 模組的訓練
Thumbnail
十幾年前還在上班累積操作資金的時候(沒辦法! 沒有富爸爸), 從事的是資料科學(data science)相關, 也是Oracle ERP的data architect, 並受過SAP Data Warehousing 模組的訓練
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News