我對合成數據使用的三個思考：是夥伴，是替代，還是偏誤

紫式講義

發佈於合成數據

2022/08/04 更新2022/08/04 發佈閱讀 4 分鐘

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。

本文章收錄三個思考：

合成數據能夠成為夥伴，還是成為替代呢？
我們關心的是統計任務，還是運營任務呢？
基於合成數據的學習，要怎麼學得好呢？

思考#1：合成數據，是夥伴，還是替代？

有兩個觀點來看合成數據：夥伴，或是替代。

夥伴：真實數據在做的事情，合成數據可以「一起」做嗎？(Can we do the same things with synthetic data that we do with real data?)
替代：真實數據在做的事情，合成數據可以「自己」做嗎？(Can we do the same things to synthetic data that we do to real data?)

你覺得哪個比較合理呢？我覺得後者比較理想。

思考#2：夥伴還是替代，其實還是看想做什麼任務。

合成數據作為夥伴，想做的事是

建築模型
實踐資料分析
檢驗假說

合成數據作為替代，想做的事是

連結分開的數據集
延伸合成數據集，當新的紀錄加入原數據集

感覺這兩個理解都有道理，但好像跟我自己理解with與to的角度不一樣。

這邊的with感覺是替代。

這邊的to感覺更是夥伴。

需要繼續寫文章細化。

思考#3：合成數據學習，仍然是大量未知。

主要的擔憂，是隱私數據有偏誤。

A particular concern for private data is bias. Ghalebikesabi et al. [34] warn against the risks of learning from synthetic data, and propose a methodology for learning unbiasedly from such data. Wilde et al. [35] demonstrate superior performance when model parameters are updated using Bayesian inference, rather than approaches that fail to account for the fact the training data is synthetic.

爭議觀點為

從合成數據去學習，是有風險的。[34] Sahra Ghalebikesabi, Harrison Wilde, Jack Jewson, Arnaud Doucet, Sebastian Vollmer, and Chris Holmes. Bias mitigated learning from differentially private synthetic data: A cautionary tale. arXiv preprint arXiv:2108.10934, 2021. 🤹‍♂️
貝式推論，去調整模型參數，表現更好。[35] Harrison Wilde, Jack Jewson, Sebastian Vollmer, and Chris Holmes. Foundations of bayesian learning from synthetic data. In International Conference on Artificial Intelligence and Statistics, pages 541–549. PMLR, 2021. 🤯🤯🤯🤯🤯

#合成數據

紫式講義的沙龍合成數據

留言

留言分享你的想法！

紫式講義的沙龍

4會員

23內容數

思考合成數據的各種原理，應用與效果。

你可能也想看

Chloe小窩

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

在小小的租屋房間裡，透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材，打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖，並推薦蝦皮分潤計畫。

#手作#黏土手作#輕黏土

2025/09/09

Chloe小窩

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

#手作#黏土手作#輕黏土

2025/09/09

小蝸慢慢爬

蝦皮分潤計畫-小豬與小蝸的婚姻神隊友

小蝸和小豬因購物習慣不同常起衝突，直到發現蝦皮分潤計畫，讓小豬的購物愛好產生價值，也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異？讓蝦皮分潤計畫成為你們的神隊友吧！

2025/09/09

2025/09/09

今年的國泰金控技術年會，關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目，尤其是發生在模型要準備落地應用，需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題，我自己很喜歡這個部分，算法是用一套最基本的SHAP，SHAP基於博

2023/09/20

2023/09/20

【撰寫學術Newsletter，打造豐富合成數據專欄的3個策略】

2023年5月，我在UCLA做合成數據(Synthetic Data)的研究。我正規劃撰寫組內的學術Newsletter，讓他變成重要的知識平台，探索合成數據的各種可能性，分享研究想法。以下是目前我規劃撰寫學術Newsletter，打造豐富合成數據專欄的3個策略：

#學術工作流#UCLA#研究所

2023/06/05

王啟樺的沙龍

【撰寫學術Newsletter，打造豐富合成數據專欄的3個策略】

#學術工作流#UCLA#研究所

2023/06/05

紫式講義的沙龍

我對合成數據使用的三個思考：是夥伴，是替代，還是偏誤

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。本文章收錄三個思考：合成數據能夠成為夥伴，還是成為替代呢？我們關心的是統計任務，還是運營任務呢？基於合成數據的學習，要怎麼學得好呢？思考#1：合成數據，是夥伴，還是替代？有兩個觀點來看合成數據：夥伴，或是替代。

#合成數據

2022/08/04

紫式講義的沙龍

我對合成數據使用的三個思考：是夥伴，是替代，還是偏誤

#合成數據

2022/08/04

紫式講義的沙龍

我對合成數據本質的三個思考：可信任元素，任務導向生成模型，基準真相。

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。

#合成數據

2022/08/03

紫式講義的沙龍

我對合成數據本質的三個思考：可信任元素，任務導向生成模型，基準真相。

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。

#合成數據

2022/08/03

紫式講義的沙龍

我對可解釋性的三個思考：可解釋資訊，合規與風險權衡，詐欺機率分數

本文章分享閱讀關於可解釋性的文章後，產生的三個思考理解。利用真實數據訓練，可解釋性與準確度的權衡，是很常聽到的現象。研究的主題，則是去問說：「這個權衡，如果改成合成數據訓練的話，是否還是有這種現象？」

2022/08/03

紫式講義的沙龍

我對可解釋性的三個思考：可解釋資訊，合規與風險權衡，詐欺機率分數

2022/08/03

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

本文章想分享給你，我在閱讀有效合成數據的文章後，產生的理解與思考。首先，本文章有三個有趣的實驗問題：資料前處理(Data-Preprocession)對合成數據效度的影響。是否需要對合成的機器學習模型調參(Tuning)。效度測量是否能預測合成數據訓練的機器學習模型的準確度。

#合成數據#機器學習#傾向分數

2022/07/30

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

#合成數據#機器學習#傾向分數

2022/07/30

劉奕酉的職場致勝賽局

【數據思維】培養統計思維，提升面對不確定性的決策品質

你可以不懂統計，但不能不知道統計思維，尤其在這個大數據時代。這能讓你更好地解讀身邊的資訊，運用這些資訊來做出更好的決定與判斷。

#數據思維#統計思維#大數據

2022/06/06

劉奕酉的職場致勝賽局

【數據思維】培養統計思維，提升面對不確定性的決策品質

你可以不懂統計，但不能不知道統計思維，尤其在這個大數據時代。這能讓你更好地解讀身邊的資訊，運用這些資訊來做出更好的決定與判斷。

#數據思維#統計思維#大數據

2022/06/06

海貓貓的沙龍

經驗與預測，Bayesian Inference

貝氏推論(Bayesian Inference)是一種著名的推論方式。貓貓在此稍作介紹。

#投資#貝氏推論#統計推論

2022/04/20

海貓貓的沙龍

經驗與預測，Bayesian Inference

貝氏推論(Bayesian Inference)是一種著名的推論方式。貓貓在此稍作介紹。

#投資#貝氏推論#統計推論

2022/04/20

Dex的塵世哲學

大數據與人工智慧是怎樣的存在？怎樣的關聯？

此篇的來歷，是由於近期好友們逐漸知道我的近況而開始訊問並有了想轉換領域的想法，或許是因為年紀到30歲這階段，真的就會開始反思過往，然後遙想未來，雖然對本科的人來說這就是一個技能一份工作而已，但從轉換跑道的角度來看，不該只拿著“鐵鎚”去看待這樣的環境，而是隨時去挖掘機會，探索任何可能！這便是資料科學家

#人工智慧#大數據#Bigdata

2020/03/06