本文參考自一份聯合研究《𝐒𝐞𝐥𝐟-𝐂𝐨𝐧𝐬𝐮𝐦𝐢𝐧𝐠 𝐆𝐞𝐧𝐞𝐫𝐚𝐭𝐢𝐯𝐞 𝐌𝐨𝐝𝐞𝐥𝐬 𝐆𝐨 𝐌𝐀𝐃》作者群繁多,包含:Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk。該研究於 2023 年發表,刊登於 arXiv。
在深度學習與生成式模型(Generative Model)快速發展的浪潮中,越來越多研究者與產業界開始使用前代模型產生的合成數據(synthetic data)去訓練新一代模型。
這種資料訓練的迴圈,形成了一條潛在的「自我消耗」路徑:
下一代的模型並非只從真實世界(real-world)收集資料,也同時將前一代模型所生成之合成資料納入訓練。
該研究指出,若在每次迭代中缺乏足量且新鮮的真實資料,生成模型的品質(quality)與多樣性(diversity)都會逐漸退化,最終將陷入所謂的模型自嗜(Model Autophagy Disorder, MAD)的狀態。
為了更具體地剖析該現象,本研究將模型自我吞噬的生成式訓練迴圈分為三類情境,並進一步探討「抽樣偏倚」(sampling bias)對品質與多樣性的顯著影響,同時說明如何才能避免模型長期表現走下坡。
生成式模型(例如 GAN、Diffusion Models、StyleGAN、ChatGPT 等)在影像、文本及其他資料類型上的成果驚人。
隨著開源模型與商業服務的普及,海量合成內容被上傳到網路或匯入資料庫,這些合成資料在無形之中又回流並用於訓練新一代的模型。
如此一來,我們就得面對生成模型「反芻」前一代模型自己產生的合成資料的狀況,而出現連續的自我循環(self-consuming loop)。
在每一代的模型訓練中,如果加入的合成資料比例過高,而真實資料來源又不足或缺乏更新,可能使模型對真實分佈(reference distribution)的推算漸行漸遠:合成圖片或文字的品質下滑,或者多樣性崩潰。
若此過程重複足夠多次,便會觸發 Model Autophagy Disorder (MAD),如同生物學中「狂牛症」的隱喻 — — 反覆餵食已被污染的食材,導致整個生態圈最終受害。
MAD 的核心在於,模型與真實分佈的距離會隨著模型的疊代、增長而越來越大。
同時,模型會在「品質」(能不能生成逼真的樣本)與「多樣性」(能不能覆蓋多種類型的真實樣本)之間產生惡化。
若長期缺乏足量的新鮮真實資料,品質或多樣性將不可避免地出現退化,不論是朝「模式崩潰」(mode collapse)或「高品質但缺乏多樣性」的方向,都同樣失衡。
本分研究將生成式模型的自我吞噬歸現象,納為三種主要形態,差別在於每個世代(generation)在訓練新模型時加入多少新的真實資料,以及如何混合前代模型的合成資料(下圖皆來自本研究):
在 t ≥ 2 的每一代模型,模型只使用前一代或前幾代模型生成的合成資料。沒有任何新的真實資料進入。
這個情境通常在一些「反覆微調」(iterative fine-tuning)流程中出現,例如研究人員反覆用自己模型產生的高品質樣本來精修自身。
由於真實資料不再補充,誤差和偏差會在每輪訓練時被反覆「放大」或「移位」,最終導致生成分佈與真實分佈之間的距離越來越大。
每個世代的模型訓練資料,由「固定的一批真實資料」與「前代生成的合成資料」組成。
固定真實資料幫助模型不至於完全遠離真實分佈,但若新資料不增加,隨著合成資料累積,模型最終依舊可能偏離真實分佈,因為固定的真實資料無法彌補前幾代模型演算所累積的偏差。
實務上常見於「資料不足」的情境下,研究者以合成方式擴大資料量(data augmentation),期望藉此提高模型的學習效果。
每個世代都能拿到新的真實資料(fresh real data),再加上從前代或前幾代模型產生的合成資料。
這是最接近真實世界大數據環境的情境,因為隨著時間推移,網路或資料庫中會同時包含人類產出的真實樣本和先前 AI 模型產生的合成樣本。
若新鮮真實資料的比重足夠,便能有效防止模型品質和多樣性的退化,使生成模式不至於完全「走火入魔」。
研究者(或一般大眾)常常會特意挑選「看起來品質高」的合成樣本,捨棄品質低或有明顯瑕疵者,或者採用各種方式,壓縮合成樣本的多樣性以提升視覺品質。
這種作法在實務上相當普遍,可以用一個參數 λ 來代表抽樣時對「模態集中」的偏好程度;λ=1 表示完全不做偏倚,保持資料的多樣性,λ<1 則表示樣本分佈更集中在該模型的高密度區域,樣本較一致,但多樣性隨之下降。
若 λ=1(無偏倚)的每一代模型產生的資料呈現「真實誤差隨機分布」,若真實資料不足,模型最終將走向品質和多樣性雙重下降。
若 λ<1(有偏倚)此時模型「寧可」產生高品質、單一風格的樣本,且會更快速喪失多樣性。對某些應用而言,或許看似品質維持得還不錯,但其實真實分佈中的許多模式都不再出現(mode collapse)。
例如,文本生成可能會只產生有限幾種句型與詞彙,影像生成也可能只專注於顏色或構圖的某些樣式。
使用 MNIST 上的 DDPM 或人臉 FFHQ 上的 StyleGAN2 皆出現類似情形:
若進行 t-SNE 視覺化可發現生成資料的模態越來越集中,最終只剩幾種典型形態,其他模式消失。
在完全合成迴圈中,缺乏任何新的真實樣本補充,再加上抽樣偏倚,就算可以得到好看或清晰的「單一模態」合成影像,長久來看仍是品質或多樣性的長期退化。
每個世代都會把前代模型的合成資料加進訓練集,同時仍保留最初那批真實資料。但真實資料不增加、不更新。隨著迭代,合成資料的比例往往越來越大。
MNIST 上的 DDPM、FFHQ 上的 StyleGAN 實驗顯示:
固定的一批真實資料可以延緩衰退,但無法從根本上阻止模型走向 MAD。時間一久,這些固定真實資料不足以彌補偏差的累積。
每個世代都注入來自真實分佈的新樣本(fresh data)。同時,仍會蒐集前代模型所產出的合成資料。這最貼近於現實:隨時間增加,資料庫內同時堆積新鮮真實資料與前幾代 AI 合成資料。
若每一輪都有足夠比例的新鮮真實資料,模型就能有效避免完全崩壞。調查該「足夠比例」時,發現當合成資料數量相對於真實資料太多,或抽樣偏倚太嚴重,仍可能讓模型最終失去多樣性或品質。
但若維持一個合適的「真實樣本比例」,生成分佈在許多情況下能長期穩定,甚至合成資料在初期還能擴大有效樣本數,對模型表現有所助益。
關鍵是「多少真實資料才算夠」,合成資料如果在某臨界值以下,反而能起到擴充 dataset 的正面效果;一旦超過臨界值,模型的誤差會開始急速累積,使結果惡化。
從實驗可知,若每代都只或主要依賴舊合成資料,偏誤會在多輪訓練裡面逐步放大,最終走向品質或多樣性的大規模流失。
在醫學或高隱私領域,人們可能利用合成數據來避免隱私洩露,但也需要謹慎評估過高比例的合成樣本是否產生負面影響。
在生活應用中,人們往往會只挑選「看起來最真實」的合成樣本上傳到網路或放入公開資料庫,導致實際上出現在「環境」中的合成資料帶有強烈偏倚,進一步加速多樣性的流失。
有些研究致力於給生成內容做「隱式簽名」或「水印」,以便未來能在大規模資料中過濾合成內容,避免訓練集被過量合成資料「汙染」。但同時要注意,水印本身也是一種隱藏特徵,若反覆重複,可能被放大至影響整體資料分佈。
若能在每一代訓練或每隔數代引入充分且多元的真實資料,MAD 便能被避免或至少延後。
訓練規模越大,需要的真實資料越多,否則長久下來合成資料相較之下變得過多,模型最終仍會退化。
本文以影像生成為主軸,但文本、語音、表格或其他數據型態的自我吞噬迴圈,理論上同樣適用。大型語言模型若重複使用自己產生的文字訓練後續版本,也可能出現語言模式崩潰、詞彙多樣性消失等問題。
研究人員在近期也看到類似結果:若一個語言模型大量接觸自己的產出文本,久而久之可能產生嚴重的風格趨同(style convergence),或是錯誤的資料被不斷放大。
隨著 AI 內容創作工具的普及,合成資料比例確實不斷上升。無論是在圖像、語音,還是文字等領域,若每一代都過度依賴前一代合成資料,且缺乏充足且新鮮的真實資料,將導致長期品質與多樣性的惡化。
在實務操作上,唯有持續加入新且足量的真實樣本、謹慎控制合成資料比例或偏倚程度,以及發展更有效的檢測機制。
若缺乏制度或技術解決方案,未來開發者可能無法避免新一代模型在「骯髒」的環境裡訓練,累積的偏誤大到必須投入更多真實資源做矯正。