我對合成數據本質的三個思考:可信任元素,任務導向生成模型,基準真相。

閱讀時間約 6 分鐘
圖片來源:https://towardsdatascience.com/synthetic-data-generation-a-must-have-skill-for-new-data-scientists-915896c0c1ae

這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。

思考#1:合成數據,始於隱私,終於更多的可信任AI元素。

此文章給出8個核心訊息
  1. 合成數據,是有顯著前景的科技。(Synthetic data is a technology with significant promise.)
  2. 合成數據,可以加速發展。(Synthetic data can accelerate development.)
  3. 合成數據,並非天生就有隱私性。(Synthetic data is not automatically private.)
  4. 合成數據,並非真實數據的替代。(Synthetic data is not a replacement for real data.)
  5. 離群值很難用保護隱私的方式抓到。(Outliers are hard to capture privately.)
  6. 只用實驗評估單個數據集的隱私,是很有問題的。(Empirically evaluating the privacy of a single dataset can be problematic.)
  7. 當生成合成數據,黑盒子模型特別不透明。(Black box models can be particularly opaque when it comes to generating synthetic data.)
  8. 合成數據不只能幫助隱私。(Synthetic data goes beyond privacy.)
閱讀了這八個訊息以後,我認為合成數據,在研究上有非常多的維度。這個做法讓我們必須專注在數據中心方法(Data-Centric Method),某個程度讓我們傳統使用的數學技術無直接用武之地。年輕的時候玩玩,累積經歷,走長期主義,感覺是有趣的事情。

思考#2:分析合成數據的三個維度,資料科學任務,目的導向模型,數據生成方法

什麼是合成數據呢?這個文件給出的定義為
Definition 1 Synthetic data is data that has been generated using a purpose-built mathematical model or algorithm, with the aim of solving a (set of ) data science task(s).
我對這個定義的中文翻譯如下:合成數據,目標指向解決一組資料科學任務,而根據一個目標導向建築的數學模型或演算法,產生的數據。
由此定義,我們可以列出三個元素
  1. 資料科學任務 (Data Science Tasks)
  2. 目的建築數學模型或演算法 (Purpose-built mathematical model or algorithm)
  3. 生成的數據 (Generated Data)
這三個元素提供我們有用的三個維度,來分析各種關於合成數據的工作。

思考#3:合成數據,是基準真相,也迴避隱私顧慮

下面是關於模擬方法的三個有趣的事實:
  • 利用電腦生成合成數據(Computer-generated synthetic data)來解任務,最找可以追到Ulam與von Neumann在1940s年代的蒙地卡羅模擬方法(Monte Carlo simulation methods)。
  • 模擬方法在研究常被用,因為他能夠給一種基準真相 (Ground truth),來幫助人去發展與衡量機器學習途徑。
  • 現在研究合成數據的驅動,是來自「數據保護法規(Data Protection Regulations)」,希望能用合成數據,來迴避隱私顧慮。
自然之母是否有隱私呢?
相關閱讀清單
  • Train on Synthetic, Test on Real (TSTR): https://arxiv.org/pdf/1706.02633.pdf
  • Hide-and-Seek Privacy Challenge: Synthetic Data Generation vs. Patient Re-identification. http://proceedings.mlr.press/v133/jordon21a/jordon21a.pdf
  • Pate-gan: Generating synthetic data with differential privacy guarantees. https://openreview.net/pdf?id=S1zk9iRqF7
Utility: The utility of synthetic data often is determined by its usefulness for a given task or set of tasks. This often involves contrasting the performance of models trained on real vs synthetic data, and might involve inspecting concrete metrics such as accuracy, precision, root mean-squared error, etc.; and/or model fairness properties such as demographic parity, fairness through unawareness, or conditional fairness [23]. Doing so often requires the Train on Synthetic, Test on Real (TSTR) paradigm [16] in which models are trained on synthetic data and their performance then evaluated on real data
4會員
23Content count
思考合成數據的各種原理,應用與效果。
留言0
查看全部
發表第一個留言支持創作者!
紫式講義的沙龍 的其他內容
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
職務再設計在幫助員工克服工作困難,提升工作表現,主要通過輔具、設備和環境的改善來實現。對身心障礙者和中高齡員工,這些困難包括無障礙空間需求等問題。職務再設計希望公司與員工共同努力改善工作表現。政府的設備補助金額會根據企業是否真心協助員工而有所不同。我的職責是與企業溝通,確保資源用在真正需要的員工身上
Thumbnail
由昆汀·塔倫提諾、艾倫·索金參與編劇,漢斯·季默配樂,史恩·康納萊、尼可拉斯·凱吉、艾德·哈里斯、約翰·斯賓塞主演,並由麥可·貝導演的電影,會是什麼樣的一部作品? 6月7日,在《絕地任務》(The Rock)在美國上映後的28年,我重看了這部由上述堪稱全明星陣容共同創作的經典,這是
Thumbnail
從古至今,愛美之心人皆有之,我也不例外在我小的時候就很常聽到「漂亮」,但是當時的我其實還不理解漂亮這個詞,只是覺得不是不好的意思的感覺,而在慢慢長大成人的時候才開始去理解漂亮這個詞,對於我來說美跟漂亮是不是同等詞我覺得就像是(我欣賞與心動是不一樣的感覺)。 那我是從什麼時候開始對美的認知呢?
Thumbnail
這篇文章講述作者牙齒歪斜已經20年了,並分享了對自己外貌的自信與接受。文章內容提到牙齒矯正的時間點以及作者對自己的態度,具有積極正面的訊息。
Thumbnail
今天想利用這篇文章,與你分享我在寫下兩千多份筆記以後,所提煉出來的,對筆記功能的三個思考。 這個時候,重新思考「筆記」本身的功能,我覺得是讓思維升級的必經之路。 在深度思考筆記的功能以後,我發現筆記其實是讓我們與過去的自己,現在的自己,未來的自己相遇的唯一有效手段。
Thumbnail
這篇文章即將介紹給你三個思考,學習如何使用筆記類型,讓記筆記創造更多價值。 因此,我覺得有意識地根據筆記為我們創造的價值,定義不同的筆記類型,還蠻重要的。
Thumbnail
這篇文章將梳理目前我對「有效性」的三個思考。 這個時候,重新思考有效性對自己的意義是什麼, 我覺得蠻重要的。 思考 #1: 效能(Effectiveness),是做對的事。 思考 #2: 效率(Efficiency),是把事做對。 思考 #3: 效力(Efficacy),是把事做到。
Thumbnail
這篇文章將梳理目前我對寫作的功能的三個思考。 當我們一天充滿著寫作任務,總會某個時候失去幹勁。 這個時候,重新思考寫作對自己的意義是什麼,我覺得蠻重要的。 深度理解寫作的功能,則在執行不同的寫作的時候,也可以針對其目的,去設計相對應的文體,讓讀者能夠根據文章的功能迅速獲得價值。
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
職務再設計在幫助員工克服工作困難,提升工作表現,主要通過輔具、設備和環境的改善來實現。對身心障礙者和中高齡員工,這些困難包括無障礙空間需求等問題。職務再設計希望公司與員工共同努力改善工作表現。政府的設備補助金額會根據企業是否真心協助員工而有所不同。我的職責是與企業溝通,確保資源用在真正需要的員工身上
Thumbnail
由昆汀·塔倫提諾、艾倫·索金參與編劇,漢斯·季默配樂,史恩·康納萊、尼可拉斯·凱吉、艾德·哈里斯、約翰·斯賓塞主演,並由麥可·貝導演的電影,會是什麼樣的一部作品? 6月7日,在《絕地任務》(The Rock)在美國上映後的28年,我重看了這部由上述堪稱全明星陣容共同創作的經典,這是
Thumbnail
從古至今,愛美之心人皆有之,我也不例外在我小的時候就很常聽到「漂亮」,但是當時的我其實還不理解漂亮這個詞,只是覺得不是不好的意思的感覺,而在慢慢長大成人的時候才開始去理解漂亮這個詞,對於我來說美跟漂亮是不是同等詞我覺得就像是(我欣賞與心動是不一樣的感覺)。 那我是從什麼時候開始對美的認知呢?
Thumbnail
這篇文章講述作者牙齒歪斜已經20年了,並分享了對自己外貌的自信與接受。文章內容提到牙齒矯正的時間點以及作者對自己的態度,具有積極正面的訊息。
Thumbnail
今天想利用這篇文章,與你分享我在寫下兩千多份筆記以後,所提煉出來的,對筆記功能的三個思考。 這個時候,重新思考「筆記」本身的功能,我覺得是讓思維升級的必經之路。 在深度思考筆記的功能以後,我發現筆記其實是讓我們與過去的自己,現在的自己,未來的自己相遇的唯一有效手段。
Thumbnail
這篇文章即將介紹給你三個思考,學習如何使用筆記類型,讓記筆記創造更多價值。 因此,我覺得有意識地根據筆記為我們創造的價值,定義不同的筆記類型,還蠻重要的。
Thumbnail
這篇文章將梳理目前我對「有效性」的三個思考。 這個時候,重新思考有效性對自己的意義是什麼, 我覺得蠻重要的。 思考 #1: 效能(Effectiveness),是做對的事。 思考 #2: 效率(Efficiency),是把事做對。 思考 #3: 效力(Efficacy),是把事做到。
Thumbnail
這篇文章將梳理目前我對寫作的功能的三個思考。 當我們一天充滿著寫作任務,總會某個時候失去幹勁。 這個時候,重新思考寫作對自己的意義是什麼,我覺得蠻重要的。 深度理解寫作的功能,則在執行不同的寫作的時候,也可以針對其目的,去設計相對應的文體,讓讀者能夠根據文章的功能迅速獲得價值。