我對合成數據使用的三個思考：是夥伴，是替代，還是偏誤

紫式講義

發佈於合成數據

2022/08/04 更新2022/08/04 發佈閱讀 4 分鐘

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。

本文章收錄三個思考：

合成數據能夠成為夥伴，還是成為替代呢？
我們關心的是統計任務，還是運營任務呢？
基於合成數據的學習，要怎麼學得好呢？

思考#1：合成數據，是夥伴，還是替代？

有兩個觀點來看合成數據：夥伴，或是替代。

夥伴：真實數據在做的事情，合成數據可以「一起」做嗎？(Can we do the same things with synthetic data that we do with real data?)
替代：真實數據在做的事情，合成數據可以「自己」做嗎？(Can we do the same things to synthetic data that we do to real data?)

你覺得哪個比較合理呢？我覺得後者比較理想。

思考#2：夥伴還是替代，其實還是看想做什麼任務。

合成數據作為夥伴，想做的事是

建築模型
實踐資料分析
檢驗假說

合成數據作為替代，想做的事是

連結分開的數據集
延伸合成數據集，當新的紀錄加入原數據集

感覺這兩個理解都有道理，但好像跟我自己理解with與to的角度不一樣。

這邊的with感覺是替代。

這邊的to感覺更是夥伴。

需要繼續寫文章細化。

思考#3：合成數據學習，仍然是大量未知。

主要的擔憂，是隱私數據有偏誤。

A particular concern for private data is bias. Ghalebikesabi et al. [34] warn against the risks of learning from synthetic data, and propose a methodology for learning unbiasedly from such data. Wilde et al. [35] demonstrate superior performance when model parameters are updated using Bayesian inference, rather than approaches that fail to account for the fact the training data is synthetic.

爭議觀點為

從合成數據去學習，是有風險的。[34] Sahra Ghalebikesabi, Harrison Wilde, Jack Jewson, Arnaud Doucet, Sebastian Vollmer, and Chris Holmes. Bias mitigated learning from differentially private synthetic data: A cautionary tale. arXiv preprint arXiv:2108.10934, 2021. 🤹‍♂️
貝式推論，去調整模型參數，表現更好。[35] Harrison Wilde, Jack Jewson, Sebastian Vollmer, and Chris Holmes. Foundations of bayesian learning from synthetic data. In International Conference on Artificial Intelligence and Statistics, pages 541–549. PMLR, 2021. 🤯🤯🤯🤯🤯

#合成數據

紫式講義的沙龍合成數據

留言

留言分享你的想法！

紫式講義的沙龍

4會員

23內容數

思考合成數據的各種原理，應用與效果。

你可能也想看

Celine 寫在這裡

香氛藝術家 sunkronizo perfume︱以香氛同步日常節奏的台灣獨立調香師品牌

嶄新的台灣獨立調香師品牌Sunkronizo ，這個名稱源自希臘語「同步」的意思。讓香氛不單純只是氣味調製，更是個人風格的展現與靈魂意志延伸的一種溝通語言。很適合接下來年底聖誕佳節送禮的試香組，以一星期中的日子來為全系列香氛產品命名，是品牌創立後首個推出全系列概念作品...

#香水#香水評論#試香

2025/11/25

Celine 寫在這裡

香氛藝術家 sunkronizo perfume︱以香氛同步日常節奏的台灣獨立調香師品牌

#香水#香水評論#試香

2025/11/25

awwrated的沙龍

【編輯現場】當世界都想看台灣故事：VOD 串流如何引爆下一個「台流」？

根據美國電影協會（MPA）主辦的「串流服務如何推動臺灣創意經濟」論壇內容，深入探討串流平臺對臺灣影視產業的影響、數據分析、政府政策建議、內容國際化策略，以及臺灣與「韓流」的差距。文章提出 awwrated 在串流生態系中的潛在角色，強調數據、策略與自信是臺灣影視產業發展的關鍵。

#awwrated#Netflix#NETFLIX影集

2025/11/21

awwrated的沙龍

【編輯現場】當世界都想看台灣故事：VOD 串流如何引爆下一個「台流」？

#awwrated#Netflix#NETFLIX影集

2025/11/21

月刊龍貓大王通信

進入串流大戰第二階段！台灣影視作品如何透過全球VOD平台對外發聲？這是來自美國電影協會的觀察

本文探討串流平臺（VOD）如何徹底改變好萊塢和臺灣影視產業的生態。從美國電影協會（MPA）的數據報告，揭示串流服務在臺灣的驚人普及率與在地內容的消費趨勢。文章分析國際作品如何透過在地化元素開拓新市場。同時，作者也擔憂政府過度監管可能扼殺臺灣影視創新自由，以越南為鑑，呼籲以開放態度擁抱串流時代的新機遇

#電影產業#全球在地化#串流平台

2025/11/24

月刊龍貓大王通信

進入串流大戰第二階段！台灣影視作品如何透過全球VOD平台對外發聲？這是來自美國電影協會的觀察

#電影產業#全球在地化#串流平台

2025/11/24

Karen的沙龍

國泰金控技術年會：AI 的最新發展與趨勢

今年的國泰金控技術年會，關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目，尤其是發生在模型要準備落地應用，需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題，我自己很喜歡這個部分，算法是用一套最基本的SHAP，SHAP基於博

2023/09/20

2023/09/20

【撰寫學術Newsletter，打造豐富合成數據專欄的3個策略】

2023年5月，我在UCLA做合成數據(Synthetic Data)的研究。我正規劃撰寫組內的學術Newsletter，讓他變成重要的知識平台，探索合成數據的各種可能性，分享研究想法。以下是目前我規劃撰寫學術Newsletter，打造豐富合成數據專欄的3個策略：

#學術工作流#UCLA#研究所

2023/06/05

王啟樺的沙龍

【撰寫學術Newsletter，打造豐富合成數據專欄的3個策略】

#學術工作流#UCLA#研究所

2023/06/05

紫式講義的沙龍

我對合成數據使用的三個思考：是夥伴，是替代，還是偏誤

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。本文章收錄三個思考：合成數據能夠成為夥伴，還是成為替代呢？我們關心的是統計任務，還是運營任務呢？基於合成數據的學習，要怎麼學得好呢？思考#1：合成數據，是夥伴，還是替代？有兩個觀點來看合成數據：夥伴，或是替代。

#合成數據

2022/08/04

紫式講義的沙龍

我對合成數據使用的三個思考：是夥伴，是替代，還是偏誤

#合成數據

2022/08/04

紫式講義的沙龍

我對合成數據本質的三個思考：可信任元素，任務導向生成模型，基準真相。

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。

#合成數據

2022/08/03

紫式講義的沙龍

我對合成數據本質的三個思考：可信任元素，任務導向生成模型，基準真相。

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。

#合成數據

2022/08/03

紫式講義的沙龍

我對可解釋性的三個思考：可解釋資訊，合規與風險權衡，詐欺機率分數

本文章分享閱讀關於可解釋性的文章後，產生的三個思考理解。利用真實數據訓練，可解釋性與準確度的權衡，是很常聽到的現象。研究的主題，則是去問說：「這個權衡，如果改成合成數據訓練的話，是否還是有這種現象？」

2022/08/03

紫式講義的沙龍

我對可解釋性的三個思考：可解釋資訊，合規與風險權衡，詐欺機率分數

2022/08/03

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

本文章想分享給你，我在閱讀有效合成數據的文章後，產生的理解與思考。首先，本文章有三個有趣的實驗問題：資料前處理(Data-Preprocession)對合成數據效度的影響。是否需要對合成的機器學習模型調參(Tuning)。效度測量是否能預測合成數據訓練的機器學習模型的準確度。

#合成數據#機器學習#傾向分數

2022/07/30

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

#合成數據#機器學習#傾向分數

2022/07/30

劉奕酉的職場致勝賽局

【數據思維】培養統計思維，提升面對不確定性的決策品質

你可以不懂統計，但不能不知道統計思維，尤其在這個大數據時代。這能讓你更好地解讀身邊的資訊，運用這些資訊來做出更好的決定與判斷。

#數據思維#統計思維#大數據

2022/06/06

劉奕酉的職場致勝賽局

【數據思維】培養統計思維，提升面對不確定性的決策品質

你可以不懂統計，但不能不知道統計思維，尤其在這個大數據時代。這能讓你更好地解讀身邊的資訊，運用這些資訊來做出更好的決定與判斷。

#數據思維#統計思維#大數據

2022/06/06

海貓貓的沙龍

經驗與預測，Bayesian Inference

貝氏推論(Bayesian Inference)是一種著名的推論方式。貓貓在此稍作介紹。

#投資#貝氏推論#統計推論

2022/04/20

海貓貓的沙龍

經驗與預測，Bayesian Inference

貝氏推論(Bayesian Inference)是一種著名的推論方式。貓貓在此稍作介紹。

#投資#貝氏推論#統計推論

2022/04/20

Dex的塵世哲學

大數據與人工智慧是怎樣的存在？怎樣的關聯？

此篇的來歷，是由於近期好友們逐漸知道我的近況而開始訊問並有了想轉換領域的想法，或許是因為年紀到30歲這階段，真的就會開始反思過往，然後遙想未來，雖然對本科的人來說這就是一個技能一份工作而已，但從轉換跑道的角度來看，不該只拿著“鐵鎚”去看待這樣的環境，而是隨時去挖掘機會，探索任何可能！這便是資料科學家

#人工智慧#大數據#Bigdata

2020/03/06

Dex的塵世哲學

大數據與人工智慧是怎樣的存在？怎樣的關聯？

#人工智慧#大數據#Bigdata

2020/03/06

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News