我對合成數據使用的三個思考:是夥伴,是替代,還是偏誤

更新於 發佈於 閱讀時間約 4 分鐘
資料來源:https://www.raconteur.net/technology/artificial-advantage-can-synthetic-data-make-ai-less-biased/
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
本文章收錄三個思考:
  1. 合成數據能夠成為夥伴,還是成為替代呢?
  2. 我們關心的是統計任務,還是運營任務呢?
  3. 基於合成數據的學習,要怎麼學得好呢?

思考#1:合成數據,是夥伴,還是替代?

有兩個觀點來看合成數據:夥伴,或是替代。
  1. 夥伴:真實數據在做的事情,合成數據可以「一起」做嗎?(Can we do the same things with synthetic data that we do with real data?)
  2. 替代:真實數據在做的事情,合成數據可以「自己」做嗎?(Can we do the same things to synthetic data that we do to real data?)
你覺得哪個比較合理呢?我覺得後者比較理想。

思考#2:夥伴還是替代,其實還是看想做什麼任務。

合成數據作為夥伴,想做的事是
  1. 建築模型
  2. 實踐資料分析
  3. 檢驗假說
合成數據作為替代,想做的事是
  1. 連結分開的數據集
  2. 延伸合成數據集,當新的紀錄加入原數據集
感覺這兩個理解都有道理,但好像跟我自己理解with與to的角度不一樣。
這邊的with感覺是替代。
這邊的to感覺更是夥伴。
需要繼續寫文章細化。

思考#3:合成數據學習,仍然是大量未知。

主要的擔憂,是隱私數據有偏誤。
A particular concern for private data is bias. Ghalebikesabi et al. [34] warn against the risks of learning from synthetic data, and propose a methodology for learning unbiasedly from such data. Wilde et al. [35] demonstrate superior performance when model parameters are updated using Bayesian inference, rather than approaches that fail to account for the fact the training data is synthetic.
爭議觀點為
  1. 從合成數據去學習,是有風險的。[34] Sahra Ghalebikesabi, Harrison Wilde, Jack Jewson, Arnaud Doucet, Sebastian Vollmer, and Chris Holmes. Bias mitigated learning from differentially private synthetic data: A cautionary tale. arXiv preprint arXiv:2108.10934, 2021. 🤹‍♂️
  2. 貝式推論,去調整模型參數,表現更好。[35] Harrison Wilde, Jack Jewson, Sebastian Vollmer, and Chris Holmes. Foundations of bayesian learning from synthetic data. In International Conference on Artificial Intelligence and Statistics, pages 541–549. PMLR, 2021. 🤯🤯🤯🤯🤯
avatar-img
4會員
23內容數
思考合成數據的各種原理,應用與效果。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
紫式講義的沙龍 的其他內容
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
攻擊者的目的,是發展出一種方式, 能夠可靠辨認出特定的數據點, 是否包含於目前算法的訓練數據中, 以此來窺探算法的訓練數據隱私。 有另外一類的研究,叫做數據拷貝, 則是直接觀察算法的輸出, 看看算法輸出是否有過於靠近訓練數據的情形。 這種數據拷貝的觀察, 也轉成另一種成員推論攻擊的形式。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
無論是職場專業人士還是學生, 這篇文章都能給你新的啟示。 我們常常搜尋別人的解法, 但最適合自己的, 往往是經過實踐和調整後的方法。 累積自己的數據, 能讓你在實踐中找到最佳解法, 提升自我效能。 ▋理由1 - 自己的數據更具實踐性和精確性 依賴
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
Thumbnail
生成式AI(Generative AI)能夠創造新內容和想法,包括對話、故事、圖像、視訊和音樂等。本文將介紹幾種生成式AI模型,以及其在設計製造、教育、客戶服務、媒體與娛樂、市場營銷領域的應用和風險。然後就生成式AI的應用,設計製造、教育、客戶服務、媒體與娛樂、市場營銷等相關領域提供了一些示例。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
與AI協作的時代來臨了!本篇文章中會提到一篇研究是關於生成式AI的限制,調查發現原來生成式AI對於業務問題竟然..? 以下會分享我與AI協作的流程和步驟給大家參考,也建議家中有國高中生的爸媽,要讓孩子對GPT有正確的認識與使用方式,AI協作的時代必會來臨,建立正確的觀念與使用很重要喔~
Thumbnail
生成式AI(Generative AI)是近年來人工智慧領域中備受矚目的技術之一。它以機器學習為基礎,通過學習大量數據中的模式和關係,能夠生成各種新的內容,涵蓋文字、圖像、音訊等多個領域。本文將深入探討生成式AI的原理、優缺點以及應用範疇。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
攻擊者的目的,是發展出一種方式, 能夠可靠辨認出特定的數據點, 是否包含於目前算法的訓練數據中, 以此來窺探算法的訓練數據隱私。 有另外一類的研究,叫做數據拷貝, 則是直接觀察算法的輸出, 看看算法輸出是否有過於靠近訓練數據的情形。 這種數據拷貝的觀察, 也轉成另一種成員推論攻擊的形式。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
無論是職場專業人士還是學生, 這篇文章都能給你新的啟示。 我們常常搜尋別人的解法, 但最適合自己的, 往往是經過實踐和調整後的方法。 累積自己的數據, 能讓你在實踐中找到最佳解法, 提升自我效能。 ▋理由1 - 自己的數據更具實踐性和精確性 依賴
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
Thumbnail
生成式AI(Generative AI)能夠創造新內容和想法,包括對話、故事、圖像、視訊和音樂等。本文將介紹幾種生成式AI模型,以及其在設計製造、教育、客戶服務、媒體與娛樂、市場營銷領域的應用和風險。然後就生成式AI的應用,設計製造、教育、客戶服務、媒體與娛樂、市場營銷等相關領域提供了一些示例。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
與AI協作的時代來臨了!本篇文章中會提到一篇研究是關於生成式AI的限制,調查發現原來生成式AI對於業務問題竟然..? 以下會分享我與AI協作的流程和步驟給大家參考,也建議家中有國高中生的爸媽,要讓孩子對GPT有正確的認識與使用方式,AI協作的時代必會來臨,建立正確的觀念與使用很重要喔~
Thumbnail
生成式AI(Generative AI)是近年來人工智慧領域中備受矚目的技術之一。它以機器學習為基礎,通過學習大量數據中的模式和關係,能夠生成各種新的內容,涵蓋文字、圖像、音訊等多個領域。本文將深入探討生成式AI的原理、優缺點以及應用範疇。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。