我對合成數據使用的三個思考:是夥伴,是替代,還是偏誤

閱讀時間約 4 分鐘
資料來源:https://www.raconteur.net/technology/artificial-advantage-can-synthetic-data-make-ai-less-biased/
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
本文章收錄三個思考:
  1. 合成數據能夠成為夥伴,還是成為替代呢?
  2. 我們關心的是統計任務,還是運營任務呢?
  3. 基於合成數據的學習,要怎麼學得好呢?

思考#1:合成數據,是夥伴,還是替代?

有兩個觀點來看合成數據:夥伴,或是替代。
  1. 夥伴:真實數據在做的事情,合成數據可以「一起」做嗎?(Can we do the same things with synthetic data that we do with real data?)
  2. 替代:真實數據在做的事情,合成數據可以「自己」做嗎?(Can we do the same things to synthetic data that we do to real data?)
你覺得哪個比較合理呢?我覺得後者比較理想。

思考#2:夥伴還是替代,其實還是看想做什麼任務。

合成數據作為夥伴,想做的事是
  1. 建築模型
  2. 實踐資料分析
  3. 檢驗假說
合成數據作為替代,想做的事是
  1. 連結分開的數據集
  2. 延伸合成數據集,當新的紀錄加入原數據集
感覺這兩個理解都有道理,但好像跟我自己理解with與to的角度不一樣。
這邊的with感覺是替代。
這邊的to感覺更是夥伴。
需要繼續寫文章細化。

思考#3:合成數據學習,仍然是大量未知。

主要的擔憂,是隱私數據有偏誤。
A particular concern for private data is bias. Ghalebikesabi et al. [34] warn against the risks of learning from synthetic data, and propose a methodology for learning unbiasedly from such data. Wilde et al. [35] demonstrate superior performance when model parameters are updated using Bayesian inference, rather than approaches that fail to account for the fact the training data is synthetic.
爭議觀點為
  1. 從合成數據去學習,是有風險的。[34] Sahra Ghalebikesabi, Harrison Wilde, Jack Jewson, Arnaud Doucet, Sebastian Vollmer, and Chris Holmes. Bias mitigated learning from differentially private synthetic data: A cautionary tale. arXiv preprint arXiv:2108.10934, 2021. 🤹‍♂️
  2. 貝式推論,去調整模型參數,表現更好。[35] Harrison Wilde, Jack Jewson, Sebastian Vollmer, and Chris Holmes. Foundations of bayesian learning from synthetic data. In International Conference on Artificial Intelligence and Statistics, pages 541–549. PMLR, 2021. 🤯🤯🤯🤯🤯
4會員
23Content count
思考合成數據的各種原理,應用與效果。
留言0
查看全部
發表第一個留言支持創作者!
紫式講義的沙龍 的其他內容
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
職務再設計在幫助員工克服工作困難,提升工作表現,主要通過輔具、設備和環境的改善來實現。對身心障礙者和中高齡員工,這些困難包括無障礙空間需求等問題。職務再設計希望公司與員工共同努力改善工作表現。政府的設備補助金額會根據企業是否真心協助員工而有所不同。我的職責是與企業溝通,確保資源用在真正需要的員工身上
Thumbnail
由昆汀·塔倫提諾、艾倫·索金參與編劇,漢斯·季默配樂,史恩·康納萊、尼可拉斯·凱吉、艾德·哈里斯、約翰·斯賓塞主演,並由麥可·貝導演的電影,會是什麼樣的一部作品? 6月7日,在《絕地任務》(The Rock)在美國上映後的28年,我重看了這部由上述堪稱全明星陣容共同創作的經典,這是
Thumbnail
從古至今,愛美之心人皆有之,我也不例外在我小的時候就很常聽到「漂亮」,但是當時的我其實還不理解漂亮這個詞,只是覺得不是不好的意思的感覺,而在慢慢長大成人的時候才開始去理解漂亮這個詞,對於我來說美跟漂亮是不是同等詞我覺得就像是(我欣賞與心動是不一樣的感覺)。 那我是從什麼時候開始對美的認知呢?
Thumbnail
這篇文章講述作者牙齒歪斜已經20年了,並分享了對自己外貌的自信與接受。文章內容提到牙齒矯正的時間點以及作者對自己的態度,具有積極正面的訊息。
Thumbnail
今天想利用這篇文章,與你分享我在寫下兩千多份筆記以後,所提煉出來的,對筆記功能的三個思考。 這個時候,重新思考「筆記」本身的功能,我覺得是讓思維升級的必經之路。 在深度思考筆記的功能以後,我發現筆記其實是讓我們與過去的自己,現在的自己,未來的自己相遇的唯一有效手段。
Thumbnail
這篇文章即將介紹給你三個思考,學習如何使用筆記類型,讓記筆記創造更多價值。 因此,我覺得有意識地根據筆記為我們創造的價值,定義不同的筆記類型,還蠻重要的。
Thumbnail
這篇文章將梳理目前我對「有效性」的三個思考。 這個時候,重新思考有效性對自己的意義是什麼, 我覺得蠻重要的。 思考 #1: 效能(Effectiveness),是做對的事。 思考 #2: 效率(Efficiency),是把事做對。 思考 #3: 效力(Efficacy),是把事做到。
Thumbnail
這篇文章將梳理目前我對寫作的功能的三個思考。 當我們一天充滿著寫作任務,總會某個時候失去幹勁。 這個時候,重新思考寫作對自己的意義是什麼,我覺得蠻重要的。 深度理解寫作的功能,則在執行不同的寫作的時候,也可以針對其目的,去設計相對應的文體,讓讀者能夠根據文章的功能迅速獲得價值。
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
職務再設計在幫助員工克服工作困難,提升工作表現,主要通過輔具、設備和環境的改善來實現。對身心障礙者和中高齡員工,這些困難包括無障礙空間需求等問題。職務再設計希望公司與員工共同努力改善工作表現。政府的設備補助金額會根據企業是否真心協助員工而有所不同。我的職責是與企業溝通,確保資源用在真正需要的員工身上
Thumbnail
由昆汀·塔倫提諾、艾倫·索金參與編劇,漢斯·季默配樂,史恩·康納萊、尼可拉斯·凱吉、艾德·哈里斯、約翰·斯賓塞主演,並由麥可·貝導演的電影,會是什麼樣的一部作品? 6月7日,在《絕地任務》(The Rock)在美國上映後的28年,我重看了這部由上述堪稱全明星陣容共同創作的經典,這是
Thumbnail
從古至今,愛美之心人皆有之,我也不例外在我小的時候就很常聽到「漂亮」,但是當時的我其實還不理解漂亮這個詞,只是覺得不是不好的意思的感覺,而在慢慢長大成人的時候才開始去理解漂亮這個詞,對於我來說美跟漂亮是不是同等詞我覺得就像是(我欣賞與心動是不一樣的感覺)。 那我是從什麼時候開始對美的認知呢?
Thumbnail
這篇文章講述作者牙齒歪斜已經20年了,並分享了對自己外貌的自信與接受。文章內容提到牙齒矯正的時間點以及作者對自己的態度,具有積極正面的訊息。
Thumbnail
今天想利用這篇文章,與你分享我在寫下兩千多份筆記以後,所提煉出來的,對筆記功能的三個思考。 這個時候,重新思考「筆記」本身的功能,我覺得是讓思維升級的必經之路。 在深度思考筆記的功能以後,我發現筆記其實是讓我們與過去的自己,現在的自己,未來的自己相遇的唯一有效手段。
Thumbnail
這篇文章即將介紹給你三個思考,學習如何使用筆記類型,讓記筆記創造更多價值。 因此,我覺得有意識地根據筆記為我們創造的價值,定義不同的筆記類型,還蠻重要的。
Thumbnail
這篇文章將梳理目前我對「有效性」的三個思考。 這個時候,重新思考有效性對自己的意義是什麼, 我覺得蠻重要的。 思考 #1: 效能(Effectiveness),是做對的事。 思考 #2: 效率(Efficiency),是把事做對。 思考 #3: 效力(Efficacy),是把事做到。
Thumbnail
這篇文章將梳理目前我對寫作的功能的三個思考。 當我們一天充滿著寫作任務,總會某個時候失去幹勁。 這個時候,重新思考寫作對自己的意義是什麼,我覺得蠻重要的。 深度理解寫作的功能,則在執行不同的寫作的時候,也可以針對其目的,去設計相對應的文體,讓讀者能夠根據文章的功能迅速獲得價值。