📝📝:資料的近親繁殖|失去「新鮮的數據」終將導致 AI 模型吞噬自己

更新於 發佈於 閱讀時間約 11 分鐘
由 Leonardo AI 生成

由 Leonardo AI 生成




本文參考自一份聯合研究《𝐒𝐞𝐥𝐟-𝐂𝐨𝐧𝐬𝐮𝐦𝐢𝐧𝐠 𝐆𝐞𝐧𝐞𝐫𝐚𝐭𝐢𝐯𝐞 𝐌𝐨𝐝𝐞𝐥𝐬 𝐆𝐨 𝐌𝐀𝐃》作者群繁多,包含:Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk。該研究於 2023 年發表,刊登於 arXiv。




在深度學習與生成式模型(Generative Model)快速發展的浪潮中,越來越多研究者與產業界開始使用前代模型產生的合成數據(synthetic data)去訓練新一代模型。

這種資料訓練的迴圈,形成了一條潛在的「自我消耗」路徑:

下一代的模型並非只從真實世界(real-world)收集資料,也同時將前一代模型所生成之合成資料納入訓練。

該研究指出,若在每次迭代中缺乏足量且新鮮的真實資料,生成模型的品質(quality)與多樣性(diversity)都會逐漸退化,最終將陷入所謂的模型自嗜(Model Autophagy Disorder, MAD)的狀態

為了更具體地剖析該現象,本研究將模型自我吞噬的生成式訓練迴圈分為三類情境,並進一步探討「抽樣偏倚」(sampling bias)對品質與多樣性的顯著影響,同時說明如何才能避免模型長期表現走下坡。


自我吞噬生成模型(Autophagous Generative Process)

生成式模型(例如 GAN、Diffusion Models、StyleGAN、ChatGPT 等)在影像、文本及其他資料類型上的成果驚人。

隨著開源模型與商業服務的普及,海量合成內容被上傳到網路或匯入資料庫,這些合成資料在無形之中又回流並用於訓練新一代的模型。

如此一來,我們就得面對生成模型「反芻」前一代模型自己產生的合成資料的狀況,而出現連續的自我循環(self-consuming loop)。

本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據,Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源:本研究。

本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據,Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源:本研究。



自我吞噬迴圈對應的現象

在每一代的模型訓練中,如果加入的合成資料比例過高,而真實資料來源又不足或缺乏更新,可能使模型對真實分佈(reference distribution)的推算漸行漸遠:合成圖片或文字的品質下滑,或者多樣性崩潰。

若此過程重複足夠多次,便會觸發 Model Autophagy Disorder (MAD),如同生物學中「狂牛症」的隱喻 — — 反覆餵食已被污染的食材,導致整個生態圈最終受害。


MAD(Model Autophagy Disorder)的要點

MAD 的核心在於,模型與真實分佈的距離會隨著模型的疊代、增長而越來越大。

同時,模型會在「品質」(能不能生成逼真的樣本)與「多樣性」(能不能覆蓋多種類型的真實樣本)之間產生惡化。

若長期缺乏足量的新鮮真實資料,品質或多樣性將不可避免地出現退化,不論是朝「模式崩潰」(mode collapse)或「高品質但缺乏多樣性」的方向,都同樣失衡。

MAD 的核心在於,模型與真實分佈的距離會隨著模型的疊代、增長而越來越大。




三種自我吞噬的訓練迴圈

本分研究將生成式模型的自我吞噬歸現象,納為三種主要形態,差別在於每個世代(generation)在訓練新模型時加入多少新的真實資料,以及如何混合前代模型的合成資料(下圖皆來自本研究):


完全合成迴圈(Fully Synthetic Loop)

在 t ≥ 2 的每一代模型,模型只使用前一代或前幾代模型生成的合成資料。沒有任何新的真實資料進入。

這個情境通常在一些「反覆微調」(iterative fine-tuning)流程中出現,例如研究人員反覆用自己模型產生的高品質樣本來精修自身。

由於真實資料不再補充,誤差和偏差會在每輪訓練時被反覆「放大」或「移位」,最終導致生成分佈與真實分佈之間的距離越來越大。

raw-image


合成增強迴圈(Synthetic Augmentation Loop)

每個世代的模型訓練資料,由「固定的一批真實資料」與「前代生成的合成資料」組成。

固定真實資料幫助模型不至於完全遠離真實分佈,但若新資料不增加,隨著合成資料累積,模型最終依舊可能偏離真實分佈,因為固定的真實資料無法彌補前幾代模型演算所累積的偏差。

實務上常見於「資料不足」的情境下,研究者以合成方式擴大資料量(data augmentation),期望藉此提高模型的學習效果。

raw-image



新鮮資料迴圈(Fresh Data Loop)

每個世代都能拿到新的真實資料(fresh real data),再加上從前代或前幾代模型產生的合成資料。

這是最接近真實世界大數據環境的情境,因為隨著時間推移,網路或資料庫中會同時包含人類產出的真實樣本和先前 AI 模型產生的合成樣本。

若新鮮真實資料的比重足夠,便能有效防止模型品質和多樣性的退化,使生成模式不至於完全「走火入魔」。

raw-image




抽樣偏倚(Sampling Bias)的關鍵影響

研究者(或一般大眾)常常會特意挑選「看起來品質高」的合成樣本,捨棄品質低或有明顯瑕疵者,或者採用各種方式,壓縮合成樣本的多樣性以提升視覺品質。

這種作法在實務上相當普遍,可以用一個參數 λ 來代表抽樣時對「模態集中」的偏好程度;λ=1 表示完全不做偏倚,保持資料的多樣性,λ<1 則表示樣本分佈更集中在該模型的高密度區域,樣本較一致,但多樣性隨之下降。


λ=1 的影響

若 λ=1(無偏倚)的每一代模型產生的資料呈現「真實誤差隨機分布」,若真實資料不足,模型最終將走向品質和多樣性雙重下降

λ=1(無偏倚)的每一代模型演算出來的圖片仍保有多樣性,上圖為初代資料,下圖為演算至第九代的資料。來源:本研究。

λ=1(無偏倚)的每一代模型演算出來的圖片仍保有多樣性,上圖為初代資料,下圖為演算至第九代的資料。來源:本研究。



λ<1 的影響

若 λ<1(有偏倚)此時模型「寧可」產生高品質、單一風格的樣本,且會更快速喪失多樣性。對某些應用而言,或許看似品質維持得還不錯,但其實真實分佈中的許多模式都不再出現(mode collapse)。

例如,文本生成可能會只產生有限幾種句型與詞彙,影像生成也可能只專注於顏色或構圖的某些樣式。

λ<1(有偏倚)每一代模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。

λ<1(有偏倚)每一代模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。


理論與實驗分析:三種迴圈下的行為

完全合成迴圈(Fully Synthetic Loop)

使用 MNIST 上的 DDPM 或人臉 FFHQ 上的 StyleGAN2 皆出現類似情形:

  • 無偏倚(λ=1):模型的分佈會漸漸偏移真實分佈,品質與多樣性都下降。
  • 有偏倚(λ<1):品質維持或甚至上升,但多樣性迅速瓦解。

若進行 t-SNE 視覺化可發現生成資料的模態越來越集中,最終只剩幾種典型形態,其他模式消失。

在完全合成迴圈中,缺乏任何新的真實樣本補充,再加上抽樣偏倚,就算可以得到好看或清晰的「單一模態」合成影像,長久來看仍是品質或多樣性的長期退化。

完全合成迴圈的模型演算至第五代(Gen. 5),大部分的數字已經無法辨別,越往後演算得出的結果越加糟糕。來源:本研究。

完全合成迴圈的模型演算至第五代(Gen. 5),大部分的數字已經無法辨別,越往後演算得出的結果越加糟糕。來源:本研究。

完全合成迴圈的模型即使加上抽樣偏倚,保留了數字的可識別性,但最終生成的風格趨向一致。來源:本研究。

完全合成迴圈的模型即使加上抽樣偏倚,保留了數字的可識別性,但最終生成的風格趨向一致。來源:本研究。



合成增強迴圈(Synthetic Augmentation Loop)

每個世代都會把前代模型的合成資料加進訓練集,同時仍保留最初那批真實資料。但真實資料不增加、不更新。隨著迭代,合成資料的比例往往越來越大。

MNIST 上的 DDPM、FFHQ 上的 StyleGAN 實驗顯示:

  • 若沒有抽樣偏倚(λ=1),生成的品質和多樣性仍會隨代數降低,只是衰退速度較「完全合成迴圈」慢一些,因為還有一小部分真實資料「定錨」。
  • 若有抽樣偏倚(λ<1),同樣地,品質或許可以暫時保住,但多樣性下滑更快。

固定的一批真實資料可以延緩衰退,但無法從根本上阻止模型走向 MAD。時間一久,這些固定真實資料不足以彌補偏差的累積。

合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。

合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。



新鮮資料迴圈(Fresh Data Loop)

每個世代都注入來自真實分佈的新樣本(fresh data)。同時,仍會蒐集前代模型所產出的合成資料。這最貼近於現實:隨時間增加,資料庫內同時堆積新鮮真實資料與前幾代 AI 合成資料。

若每一輪都有足夠比例的新鮮真實資料,模型就能有效避免完全崩壞。調查該「足夠比例」時,發現當合成資料數量相對於真實資料太多,或抽樣偏倚太嚴重,仍可能讓模型最終失去多樣性或品質。

但若維持一個合適的「真實樣本比例」,生成分佈在許多情況下能長期穩定,甚至合成資料在初期還能擴大有效樣本數,對模型表現有所助益。

關鍵是「多少真實資料才算夠」,合成資料如果在某臨界值以下,反而能起到擴充 dataset 的正面效果;一旦超過臨界值,模型的誤差會開始急速累積,使結果惡化。




預防 MAD 的建議 

避免「餵食」無限量的舊合成資料

從實驗可知,若每代都只或主要依賴舊合成資料,偏誤會在多輪訓練裡面逐步放大,最終走向品質或多樣性的大規模流失。

在醫學或高隱私領域,人們可能利用合成數據來避免隱私洩露,但也需要謹慎評估過高比例的合成樣本是否產生負面影響。


抽樣偏倚與水印(Watermarking)

在生活應用中,人們往往會只挑選「看起來最真實」的合成樣本上傳到網路或放入公開資料庫,導致實際上出現在「環境」中的合成資料帶有強烈偏倚,進一步加速多樣性的流失。

有些研究致力於給生成內容做「隱式簽名」或「水印」,以便未來能在大規模資料中過濾合成內容,避免訓練集被過量合成資料「汙染」。但同時要注意,水印本身也是一種隱藏特徵,若反覆重複,可能被放大至影響整體資料分佈。


確保足量的新鮮真實資料

若能在每一代訓練或每隔數代引入充分且多元的真實資料,MAD 便能被避免或至少延後。

訓練規模越大,需要的真實資料越多,否則長久下來合成資料相較之下變得過多,模型最終仍會退化。


文字和其他媒材

本文以影像生成為主軸,但文本、語音、表格或其他數據型態的自我吞噬迴圈,理論上同樣適用。大型語言模型若重複使用自己產生的文字訓練後續版本,也可能出現語言模式崩潰、詞彙多樣性消失等問題。

研究人員在近期也看到類似結果:若一個語言模型大量接觸自己的產出文本,久而久之可能產生嚴重的風格趨同(style convergence),或是錯誤的資料被不斷放大。




若缺乏制度或技術解決方案,未來開發者可能無法避免新一代模型在「骯髒」的環境裡訓練

若缺乏制度或技術解決方案,未來開發者可能無法避免新一代模型在「骯髒」的環境裡訓練


隨著 AI 內容創作工具的普及,合成資料比例確實不斷上升。無論是在圖像、語音,還是文字等領域,若每一代都過度依賴前一代合成資料,且缺乏充足且新鮮的真實資料,將導致長期品質與多樣性的惡化。

在實務操作上,唯有持續加入新且足量的真實樣本、謹慎控制合成資料比例或偏倚程度,以及發展更有效的檢測機制。

若缺乏制度或技術解決方案,未來開發者可能無法避免新一代模型在「骯髒」的環境裡訓練,累積的偏誤大到必須投入更多真實資源做矯正

avatar-img
103會員
224內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
社會人的哲學沉思 的其他內容
問題在於,公司是否會重視人類勞動的無形資產 — 創造力、同理心、理解深度,或是將人類輸入,純粹視為機器產生文字的最後清潔人員?
現行的才德至上思想雖然初衷良好,但卻導致了重大的社會分裂,Brooks 的評論指出,頂大才有的「六大精英原罪」如何撕裂社會,以及他對重新定義菁英價值的呼籲。
資深蕾絲編織專家 Karen Bovard-Sayre 就發現,Amazon 平台上,AI 生成的書籍數量激增。這些書籍多數針對領域的初學者,但內容誤導、摘要毫無邏輯、說明混亂,甚至抄襲他人的設計。
在前蘇聯,由於受到辯證唯物主義的影響。蘇聯的研究人員,普遍不認為機器可以達到人類智能的程度。他們因而更注重人機之間的協調。
問題在於,公司是否會重視人類勞動的無形資產 — 創造力、同理心、理解深度,或是將人類輸入,純粹視為機器產生文字的最後清潔人員?
現行的才德至上思想雖然初衷良好,但卻導致了重大的社會分裂,Brooks 的評論指出,頂大才有的「六大精英原罪」如何撕裂社會,以及他對重新定義菁英價值的呼籲。
資深蕾絲編織專家 Karen Bovard-Sayre 就發現,Amazon 平台上,AI 生成的書籍數量激增。這些書籍多數針對領域的初學者,但內容誤導、摘要毫無邏輯、說明混亂,甚至抄襲他人的設計。
在前蘇聯,由於受到辯證唯物主義的影響。蘇聯的研究人員,普遍不認為機器可以達到人類智能的程度。他們因而更注重人機之間的協調。
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
N001|【AI 訓練陷阱:AI 訓練數據品質下降的危機】 ── 1. 模型崩潰(Model Collapse) 2. 資料來源的重要性(Importance of Data Source) 3. 多樣性和代表性(Diversity and Representativeness)4. 保持數據品質
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
N001|【AI 訓練陷阱:AI 訓練數據品質下降的危機】 ── 1. 模型崩潰(Model Collapse) 2. 資料來源的重要性(Importance of Data Source) 3. 多樣性和代表性(Diversity and Representativeness)4. 保持數據品質
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法