更新於 2025/01/24閱讀時間約 11 分鐘

📝📝:資料的近親繁殖|失去「新鮮的數據」終將導致 AI 模型吞噬自己

由 Leonardo AI 生成

由 Leonardo AI 生成




本文參考自一份聯合研究《𝐒𝐞𝐥𝐟-𝐂𝐨𝐧𝐬𝐮𝐦𝐢𝐧𝐠 𝐆𝐞𝐧𝐞𝐫𝐚𝐭𝐢𝐯𝐞 𝐌𝐨𝐝𝐞𝐥𝐬 𝐆𝐨 𝐌𝐀𝐃》作者群繁多,包含:Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk。該研究於 2023 年發表,刊登於 arXiv。




在深度學習與生成式模型(Generative Model)快速發展的浪潮中,越來越多研究者與產業界開始使用前代模型產生的合成數據(synthetic data)去訓練新一代模型。

這種資料訓練的迴圈,形成了一條潛在的「自我消耗」路徑:

下一代的模型並非只從真實世界(real-world)收集資料,也同時將前一代模型所生成之合成資料納入訓練。

該研究指出,若在每次迭代中缺乏足量且新鮮的真實資料,生成模型的品質(quality)與多樣性(diversity)都會逐漸退化,最終將陷入所謂的模型自嗜(Model Autophagy Disorder, MAD)的狀態

為了更具體地剖析該現象,本研究將模型自我吞噬的生成式訓練迴圈分為三類情境,並進一步探討「抽樣偏倚」(sampling bias)對品質與多樣性的顯著影響,同時說明如何才能避免模型長期表現走下坡。


自我吞噬生成模型(Autophagous Generative Process)

生成式模型(例如 GAN、Diffusion Models、StyleGAN、ChatGPT 等)在影像、文本及其他資料類型上的成果驚人。

隨著開源模型與商業服務的普及,海量合成內容被上傳到網路或匯入資料庫,這些合成資料在無形之中又回流並用於訓練新一代的模型。

如此一來,我們就得面對生成模型「反芻」前一代模型自己產生的合成資料的狀況,而出現連續的自我循環(self-consuming loop)。

本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據,Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源:本研究。



自我吞噬迴圈對應的現象

在每一代的模型訓練中,如果加入的合成資料比例過高,而真實資料來源又不足或缺乏更新,可能使模型對真實分佈(reference distribution)的推算漸行漸遠:合成圖片或文字的品質下滑,或者多樣性崩潰。

若此過程重複足夠多次,便會觸發 Model Autophagy Disorder (MAD),如同生物學中「狂牛症」的隱喻 — — 反覆餵食已被污染的食材,導致整個生態圈最終受害。


MAD(Model Autophagy Disorder)的要點

MAD 的核心在於,模型與真實分佈的距離會隨著模型的疊代、增長而越來越大。

同時,模型會在「品質」(能不能生成逼真的樣本)與「多樣性」(能不能覆蓋多種類型的真實樣本)之間產生惡化。

若長期缺乏足量的新鮮真實資料,品質或多樣性將不可避免地出現退化,不論是朝「模式崩潰」(mode collapse)或「高品質但缺乏多樣性」的方向,都同樣失衡。

MAD 的核心在於,模型與真實分佈的距離會隨著模型的疊代、增長而越來越大。




三種自我吞噬的訓練迴圈

本分研究將生成式模型的自我吞噬歸現象,納為三種主要形態,差別在於每個世代(generation)在訓練新模型時加入多少新的真實資料,以及如何混合前代模型的合成資料(下圖皆來自本研究):


完全合成迴圈(Fully Synthetic Loop)

在 t ≥ 2 的每一代模型,模型只使用前一代或前幾代模型生成的合成資料。沒有任何新的真實資料進入。

這個情境通常在一些「反覆微調」(iterative fine-tuning)流程中出現,例如研究人員反覆用自己模型產生的高品質樣本來精修自身。

由於真實資料不再補充,誤差和偏差會在每輪訓練時被反覆「放大」或「移位」,最終導致生成分佈與真實分佈之間的距離越來越大。


合成增強迴圈(Synthetic Augmentation Loop)

每個世代的模型訓練資料,由「固定的一批真實資料」與「前代生成的合成資料」組成。

固定真實資料幫助模型不至於完全遠離真實分佈,但若新資料不增加,隨著合成資料累積,模型最終依舊可能偏離真實分佈,因為固定的真實資料無法彌補前幾代模型演算所累積的偏差。

實務上常見於「資料不足」的情境下,研究者以合成方式擴大資料量(data augmentation),期望藉此提高模型的學習效果。



新鮮資料迴圈(Fresh Data Loop)

每個世代都能拿到新的真實資料(fresh real data),再加上從前代或前幾代模型產生的合成資料。

這是最接近真實世界大數據環境的情境,因為隨著時間推移,網路或資料庫中會同時包含人類產出的真實樣本和先前 AI 模型產生的合成樣本。

若新鮮真實資料的比重足夠,便能有效防止模型品質和多樣性的退化,使生成模式不至於完全「走火入魔」。




抽樣偏倚(Sampling Bias)的關鍵影響

研究者(或一般大眾)常常會特意挑選「看起來品質高」的合成樣本,捨棄品質低或有明顯瑕疵者,或者採用各種方式,壓縮合成樣本的多樣性以提升視覺品質。

這種作法在實務上相當普遍,可以用一個參數 λ 來代表抽樣時對「模態集中」的偏好程度;λ=1 表示完全不做偏倚,保持資料的多樣性,λ<1 則表示樣本分佈更集中在該模型的高密度區域,樣本較一致,但多樣性隨之下降。


λ=1 的影響

若 λ=1(無偏倚)的每一代模型產生的資料呈現「真實誤差隨機分布」,若真實資料不足,模型最終將走向品質和多樣性雙重下降

λ=1(無偏倚)的每一代模型演算出來的圖片仍保有多樣性,上圖為初代資料,下圖為演算至第九代的資料。來源:本研究。



λ<1 的影響

若 λ<1(有偏倚)此時模型「寧可」產生高品質、單一風格的樣本,且會更快速喪失多樣性。對某些應用而言,或許看似品質維持得還不錯,但其實真實分佈中的許多模式都不再出現(mode collapse)。

例如,文本生成可能會只產生有限幾種句型與詞彙,影像生成也可能只專注於顏色或構圖的某些樣式。

λ<1(有偏倚)每一代模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。


理論與實驗分析:三種迴圈下的行為

完全合成迴圈(Fully Synthetic Loop)

使用 MNIST 上的 DDPM 或人臉 FFHQ 上的 StyleGAN2 皆出現類似情形:

  • 無偏倚(λ=1):模型的分佈會漸漸偏移真實分佈,品質與多樣性都下降。
  • 有偏倚(λ<1):品質維持或甚至上升,但多樣性迅速瓦解。

若進行 t-SNE 視覺化可發現生成資料的模態越來越集中,最終只剩幾種典型形態,其他模式消失。

在完全合成迴圈中,缺乏任何新的真實樣本補充,再加上抽樣偏倚,就算可以得到好看或清晰的「單一模態」合成影像,長久來看仍是品質或多樣性的長期退化。

完全合成迴圈的模型演算至第五代(Gen. 5),大部分的數字已經無法辨別,越往後演算得出的結果越加糟糕。來源:本研究。

完全合成迴圈的模型即使加上抽樣偏倚,保留了數字的可識別性,但最終生成的風格趨向一致。來源:本研究。



合成增強迴圈(Synthetic Augmentation Loop)

每個世代都會把前代模型的合成資料加進訓練集,同時仍保留最初那批真實資料。但真實資料不增加、不更新。隨著迭代,合成資料的比例往往越來越大。

MNIST 上的 DDPM、FFHQ 上的 StyleGAN 實驗顯示:

  • 若沒有抽樣偏倚(λ=1),生成的品質和多樣性仍會隨代數降低,只是衰退速度較「完全合成迴圈」慢一些,因為還有一小部分真實資料「定錨」。
  • 若有抽樣偏倚(λ<1),同樣地,品質或許可以暫時保住,但多樣性下滑更快。

固定的一批真實資料可以延緩衰退,但無法從根本上阻止模型走向 MAD。時間一久,這些固定真實資料不足以彌補偏差的累積。

合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。



新鮮資料迴圈(Fresh Data Loop)

每個世代都注入來自真實分佈的新樣本(fresh data)。同時,仍會蒐集前代模型所產出的合成資料。這最貼近於現實:隨時間增加,資料庫內同時堆積新鮮真實資料與前幾代 AI 合成資料。

若每一輪都有足夠比例的新鮮真實資料,模型就能有效避免完全崩壞。調查該「足夠比例」時,發現當合成資料數量相對於真實資料太多,或抽樣偏倚太嚴重,仍可能讓模型最終失去多樣性或品質。

但若維持一個合適的「真實樣本比例」,生成分佈在許多情況下能長期穩定,甚至合成資料在初期還能擴大有效樣本數,對模型表現有所助益。

關鍵是「多少真實資料才算夠」,合成資料如果在某臨界值以下,反而能起到擴充 dataset 的正面效果;一旦超過臨界值,模型的誤差會開始急速累積,使結果惡化。




預防 MAD 的建議 

避免「餵食」無限量的舊合成資料

從實驗可知,若每代都只或主要依賴舊合成資料,偏誤會在多輪訓練裡面逐步放大,最終走向品質或多樣性的大規模流失。

在醫學或高隱私領域,人們可能利用合成數據來避免隱私洩露,但也需要謹慎評估過高比例的合成樣本是否產生負面影響。


抽樣偏倚與水印(Watermarking)

在生活應用中,人們往往會只挑選「看起來最真實」的合成樣本上傳到網路或放入公開資料庫,導致實際上出現在「環境」中的合成資料帶有強烈偏倚,進一步加速多樣性的流失。

有些研究致力於給生成內容做「隱式簽名」或「水印」,以便未來能在大規模資料中過濾合成內容,避免訓練集被過量合成資料「汙染」。但同時要注意,水印本身也是一種隱藏特徵,若反覆重複,可能被放大至影響整體資料分佈。


確保足量的新鮮真實資料

若能在每一代訓練或每隔數代引入充分且多元的真實資料,MAD 便能被避免或至少延後。

訓練規模越大,需要的真實資料越多,否則長久下來合成資料相較之下變得過多,模型最終仍會退化。


文字和其他媒材

本文以影像生成為主軸,但文本、語音、表格或其他數據型態的自我吞噬迴圈,理論上同樣適用。大型語言模型若重複使用自己產生的文字訓練後續版本,也可能出現語言模式崩潰、詞彙多樣性消失等問題。

研究人員在近期也看到類似結果:若一個語言模型大量接觸自己的產出文本,久而久之可能產生嚴重的風格趨同(style convergence),或是錯誤的資料被不斷放大。




若缺乏制度或技術解決方案,未來開發者可能無法避免新一代模型在「骯髒」的環境裡訓練


隨著 AI 內容創作工具的普及,合成資料比例確實不斷上升。無論是在圖像、語音,還是文字等領域,若每一代都過度依賴前一代合成資料,且缺乏充足且新鮮的真實資料,將導致長期品質與多樣性的惡化。

在實務操作上,唯有持續加入新且足量的真實樣本、謹慎控制合成資料比例或偏倚程度,以及發展更有效的檢測機制。

若缺乏制度或技術解決方案,未來開發者可能無法避免新一代模型在「骯髒」的環境裡訓練,累積的偏誤大到必須投入更多真實資源做矯正

分享至
成為作者繼續創作的動力吧!
從 Google News 追蹤更多 vocus 的最新精選內容從 Google News 追蹤更多 vocus 的最新精選內容

社會人的哲學沉思 的其他內容

你可能也想看

發表回應

成為會員 後即可發表留言
© 2025 vocus All rights reserved.