我對合成數據本質的三個思考:可信任元素,任務導向生成模型,基準真相。

更新於 發佈於 閱讀時間約 6 分鐘
圖片來源:https://towardsdatascience.com/synthetic-data-generation-a-must-have-skill-for-new-data-scientists-915896c0c1ae

這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。

思考#1:合成數據,始於隱私,終於更多的可信任AI元素。

此文章給出8個核心訊息
  1. 合成數據,是有顯著前景的科技。(Synthetic data is a technology with significant promise.)
  2. 合成數據,可以加速發展。(Synthetic data can accelerate development.)
  3. 合成數據,並非天生就有隱私性。(Synthetic data is not automatically private.)
  4. 合成數據,並非真實數據的替代。(Synthetic data is not a replacement for real data.)
  5. 離群值很難用保護隱私的方式抓到。(Outliers are hard to capture privately.)
  6. 只用實驗評估單個數據集的隱私,是很有問題的。(Empirically evaluating the privacy of a single dataset can be problematic.)
  7. 當生成合成數據,黑盒子模型特別不透明。(Black box models can be particularly opaque when it comes to generating synthetic data.)
  8. 合成數據不只能幫助隱私。(Synthetic data goes beyond privacy.)
閱讀了這八個訊息以後,我認為合成數據,在研究上有非常多的維度。這個做法讓我們必須專注在數據中心方法(Data-Centric Method),某個程度讓我們傳統使用的數學技術無直接用武之地。年輕的時候玩玩,累積經歷,走長期主義,感覺是有趣的事情。

思考#2:分析合成數據的三個維度,資料科學任務,目的導向模型,數據生成方法

什麼是合成數據呢?這個文件給出的定義為
Definition 1 Synthetic data is data that has been generated using a purpose-built mathematical model or algorithm, with the aim of solving a (set of ) data science task(s).
我對這個定義的中文翻譯如下:合成數據,目標指向解決一組資料科學任務,而根據一個目標導向建築的數學模型或演算法,產生的數據。
由此定義,我們可以列出三個元素
  1. 資料科學任務 (Data Science Tasks)
  2. 目的建築數學模型或演算法 (Purpose-built mathematical model or algorithm)
  3. 生成的數據 (Generated Data)
這三個元素提供我們有用的三個維度,來分析各種關於合成數據的工作。

思考#3:合成數據,是基準真相,也迴避隱私顧慮

下面是關於模擬方法的三個有趣的事實:
  • 利用電腦生成合成數據(Computer-generated synthetic data)來解任務,最找可以追到Ulam與von Neumann在1940s年代的蒙地卡羅模擬方法(Monte Carlo simulation methods)。
  • 模擬方法在研究常被用,因為他能夠給一種基準真相 (Ground truth),來幫助人去發展與衡量機器學習途徑。
  • 現在研究合成數據的驅動,是來自「數據保護法規(Data Protection Regulations)」,希望能用合成數據,來迴避隱私顧慮。
自然之母是否有隱私呢?
相關閱讀清單
  • Train on Synthetic, Test on Real (TSTR): https://arxiv.org/pdf/1706.02633.pdf
  • Hide-and-Seek Privacy Challenge: Synthetic Data Generation vs. Patient Re-identification. http://proceedings.mlr.press/v133/jordon21a/jordon21a.pdf
  • Pate-gan: Generating synthetic data with differential privacy guarantees. https://openreview.net/pdf?id=S1zk9iRqF7
Utility: The utility of synthetic data often is determined by its usefulness for a given task or set of tasks. This often involves contrasting the performance of models trained on real vs synthetic data, and might involve inspecting concrete metrics such as accuracy, precision, root mean-squared error, etc.; and/or model fairness properties such as demographic parity, fairness through unawareness, or conditional fairness [23]. Doing so often requires the Train on Synthetic, Test on Real (TSTR) paradigm [16] in which models are trained on synthetic data and their performance then evaluated on real data
avatar-img
4會員
23內容數
思考合成數據的各種原理,應用與效果。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
紫式講義的沙龍 的其他內容
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
你可能也想看
Google News 追蹤
攻擊者的目的,是發展出一種方式, 能夠可靠辨認出特定的數據點, 是否包含於目前算法的訓練數據中, 以此來窺探算法的訓練數據隱私。 有另外一類的研究,叫做數據拷貝, 則是直接觀察算法的輸出, 看看算法輸出是否有過於靠近訓練數據的情形。 這種數據拷貝的觀察, 也轉成另一種成員推論攻擊的形式。
1. 使用GReaT框架進行條件生成: - Vadim Borisov在2023年發表的文章《Language Models are Realistic Tabular Data Generators》中提出了GReaT框架。GReaT代表Generation of Realistic Tabul
Thumbnail
本文介紹了檢索增強生成(RAG)技術的概念、運作原理、應用場景以及相關資源。RAG 技術結合檢索和生成的優勢,提升了生成內容的準確性和相關性,同時能有效保護隱私數據。對於希望應用 GPT 技術但擔心數據外洩的企業來說,RAG 是一個理想的解決方案。
Thumbnail
生成式AI(Generative AI)能夠創造新內容和想法,包括對話、故事、圖像、視訊和音樂等。本文將介紹幾種生成式AI模型,以及其在設計製造、教育、客戶服務、媒體與娛樂、市場營銷領域的應用和風險。然後就生成式AI的應用,設計製造、教育、客戶服務、媒體與娛樂、市場營銷等相關領域提供了一些示例。
Thumbnail
這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式,包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外,也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細,涵蓋了GAN的各個相關面向。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
生成式AI(Generative AI)是近年來人工智慧領域中備受矚目的技術之一。它以機器學習為基礎,通過學習大量數據中的模式和關係,能夠生成各種新的內容,涵蓋文字、圖像、音訊等多個領域。本文將深入探討生成式AI的原理、優缺點以及應用範疇。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。
Thumbnail
本文科普了電信產業導入生成式 AI 的兩大使用範例,以及對生成式 AI 衍生服務的接受度。進一步探討了用戶自動化和網路自動化的重要性,並提出對於電信業導入生成式 AI 的展望。
攻擊者的目的,是發展出一種方式, 能夠可靠辨認出特定的數據點, 是否包含於目前算法的訓練數據中, 以此來窺探算法的訓練數據隱私。 有另外一類的研究,叫做數據拷貝, 則是直接觀察算法的輸出, 看看算法輸出是否有過於靠近訓練數據的情形。 這種數據拷貝的觀察, 也轉成另一種成員推論攻擊的形式。
1. 使用GReaT框架進行條件生成: - Vadim Borisov在2023年發表的文章《Language Models are Realistic Tabular Data Generators》中提出了GReaT框架。GReaT代表Generation of Realistic Tabul
Thumbnail
本文介紹了檢索增強生成(RAG)技術的概念、運作原理、應用場景以及相關資源。RAG 技術結合檢索和生成的優勢,提升了生成內容的準確性和相關性,同時能有效保護隱私數據。對於希望應用 GPT 技術但擔心數據外洩的企業來說,RAG 是一個理想的解決方案。
Thumbnail
生成式AI(Generative AI)能夠創造新內容和想法,包括對話、故事、圖像、視訊和音樂等。本文將介紹幾種生成式AI模型,以及其在設計製造、教育、客戶服務、媒體與娛樂、市場營銷領域的應用和風險。然後就生成式AI的應用,設計製造、教育、客戶服務、媒體與娛樂、市場營銷等相關領域提供了一些示例。
Thumbnail
這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式,包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外,也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細,涵蓋了GAN的各個相關面向。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
生成式AI(Generative AI)是近年來人工智慧領域中備受矚目的技術之一。它以機器學習為基礎,通過學習大量數據中的模式和關係,能夠生成各種新的內容,涵蓋文字、圖像、音訊等多個領域。本文將深入探討生成式AI的原理、優缺點以及應用範疇。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。
Thumbnail
本文科普了電信產業導入生成式 AI 的兩大使用範例,以及對生成式 AI 衍生服務的接受度。進一步探討了用戶自動化和網路自動化的重要性,並提出對於電信業導入生成式 AI 的展望。