我對合成數據本質的三個思考:可信任元素,任務導向生成模型,基準真相。

更新 發佈閱讀 7 分鐘
vocus|新世代的創作平台


這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。

思考#1:合成數據,始於隱私,終於更多的可信任AI元素。

此文章給出8個核心訊息

  1. 合成數據,是有顯著前景的科技。(Synthetic data is a technology with significant promise.)
  2. 合成數據,可以加速發展。(Synthetic data can accelerate development.)
  3. 合成數據,並非天生就有隱私性。(Synthetic data is not automatically private.)
  4. 合成數據,並非真實數據的替代。(Synthetic data is not a replacement for real data.)
  5. 離群值很難用保護隱私的方式抓到。(Outliers are hard to capture privately.)
  6. 只用實驗評估單個數據集的隱私,是很有問題的。(Empirically evaluating the privacy of a single dataset can be problematic.)
  7. 當生成合成數據,黑盒子模型特別不透明。(Black box models can be particularly opaque when it comes to generating synthetic data.)
  8. 合成數據不只能幫助隱私。(Synthetic data goes beyond privacy.)

閱讀了這八個訊息以後,我認為合成數據,在研究上有非常多的維度。這個做法讓我們必須專注在數據中心方法(Data-Centric Method),某個程度讓我們傳統使用的數學技術無直接用武之地。年輕的時候玩玩,累積經歷,走長期主義,感覺是有趣的事情。

思考#2:分析合成數據的三個維度,資料科學任務,目的導向模型,數據生成方法

什麼是合成數據呢?這個文件給出的定義為

Definition 1 Synthetic data is data that has been generated using a purpose-built mathematical model or algorithm, with the aim of solving a (set of ) data science task(s).

我對這個定義的中文翻譯如下:合成數據,目標指向解決一組資料科學任務,而根據一個目標導向建築的數學模型或演算法,產生的數據。

由此定義,我們可以列出三個元素

  1. 資料科學任務 (Data Science Tasks)
  2. 目的建築數學模型或演算法 (Purpose-built mathematical model or algorithm)
  3. 生成的數據 (Generated Data)

這三個元素提供我們有用的三個維度,來分析各種關於合成數據的工作。

思考#3:合成數據,是基準真相,也迴避隱私顧慮

下面是關於模擬方法的三個有趣的事實:

  • 利用電腦生成合成數據(Computer-generated synthetic data)來解任務,最找可以追到Ulam與von Neumann在1940s年代的蒙地卡羅模擬方法(Monte Carlo simulation methods)。
  • 模擬方法在研究常被用,因為他能夠給一種基準真相 (Ground truth),來幫助人去發展與衡量機器學習途徑。
  • 現在研究合成數據的驅動,是來自「數據保護法規(Data Protection Regulations)」,希望能用合成數據,來迴避隱私顧慮。

自然之母是否有隱私呢?

相關閱讀清單

  • Train on Synthetic, Test on Real (TSTR): https://arxiv.org/pdf/1706.02633.pdf
  • Hide-and-Seek Privacy Challenge: Synthetic Data Generation vs. Patient Re-identification. http://proceedings.mlr.press/v133/jordon21a/jordon21a.pdf
  • Pate-gan: Generating synthetic data with differential privacy guarantees. https://openreview.net/pdf?id=S1zk9iRqF7
Utility: The utility of synthetic data often is determined by its usefulness for a given task or set of tasks. This often involves contrasting the performance of models trained on real vs synthetic data, and might involve inspecting concrete metrics such as accuracy, precision, root mean-squared error, etc.; and/or model fairness properties such as demographic parity, fairness through unawareness, or conditional fairness [23]. Doing so often requires the Train on Synthetic, Test on Real (TSTR) paradigm [16] in which models are trained on synthetic data and their performance then evaluated on real data


留言
avatar-img
紫式講義的沙龍
4會員
23內容數
思考合成數據的各種原理,應用與效果。
你可能也想看
Thumbnail
本文章分享閱讀關於可解釋性的文章後,產生的三個思考理解。 利用真實數據訓練,可解釋性與準確度的權衡,是很常聽到的現象。 研究的主題,則是去問說:「這個權衡,如果改成合成數據訓練的話,是否還是有這種現象?」
Thumbnail
本文章分享閱讀關於可解釋性的文章後,產生的三個思考理解。 利用真實數據訓練,可解釋性與準確度的權衡,是很常聽到的現象。 研究的主題,則是去問說:「這個權衡,如果改成合成數據訓練的話,是否還是有這種現象?」
Thumbnail
2023年5月,我在UCLA做合成數據(Synthetic Data)的研究。 我正規劃撰寫組內的學術Newsletter,讓他變成重要的知識平台,探索合成數據的各種可能性,分享研究想法。 以下是目前我規劃撰寫學術Newsletter,打造豐富合成數據專欄的3個策略:
Thumbnail
2023年5月,我在UCLA做合成數據(Synthetic Data)的研究。 我正規劃撰寫組內的學術Newsletter,讓他變成重要的知識平台,探索合成數據的各種可能性,分享研究想法。 以下是目前我規劃撰寫學術Newsletter,打造豐富合成數據專欄的3個策略:
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。 本文章收錄三個思考: 合成數據能夠成為夥伴,還是成為替代呢? 我們關心的是統計任務,還是運營任務呢? 基於合成數據的學習,要怎麼學得好呢? 思考#1:合成數據,是夥伴,還是替代? 有兩個觀點來看合成數據:夥伴,或是替代。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。 本文章收錄三個思考: 合成數據能夠成為夥伴,還是成為替代呢? 我們關心的是統計任務,還是運營任務呢? 基於合成數據的學習,要怎麼學得好呢? 思考#1:合成數據,是夥伴,還是替代? 有兩個觀點來看合成數據:夥伴,或是替代。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
班傑明.迪斯雷利:「世界上有三種謊言:謊言、該死的謊言,和統計數字。」 由於我們未知的東西可能至關重大,踏錯一步很可能導致理解不當或預測錯誤,對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮,但必須抱持謹慎。唯一的解決之道就是瞭解風險,時時警覺。
Thumbnail
班傑明.迪斯雷利:「世界上有三種謊言:謊言、該死的謊言,和統計數字。」 由於我們未知的東西可能至關重大,踏錯一步很可能導致理解不當或預測錯誤,對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮,但必須抱持謹慎。唯一的解決之道就是瞭解風險,時時警覺。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
Thumbnail
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
Thumbnail
今年的國泰金控技術年會,關於 AI 有幾個主題覺得很有趣、也受到一些啟發: 1. 可解釋 AI : AI 的可解釋性一直是一個很被關注的題目,尤其是發生在模型要準備落地應用,需要驗證黑盒子是不是依照正確的邏輯、人類的邏輯去判斷問題,我自己很喜歡這個部分,算法是用一套最基本的SHAP,SHAP基於博
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News