📝📝:資料的近親繁殖|失去「新鮮的數據」終將導致 AI 模型吞噬自己

更新於 發佈於 閱讀時間約 11 分鐘
由 Leonardo AI 生成

由 Leonardo AI 生成




本文參考自一份聯合研究《𝐒𝐞𝐥𝐟-𝐂𝐨𝐧𝐬𝐮𝐦𝐢𝐧𝐠 𝐆𝐞𝐧𝐞𝐫𝐚𝐭𝐢𝐯𝐞 𝐌𝐨𝐝𝐞𝐥𝐬 𝐆𝐨 𝐌𝐀𝐃》作者群繁多,包含:Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk。該研究於 2023 年發表,刊登於 arXiv。




在深度學習與生成式模型(Generative Model)快速發展的浪潮中,越來越多研究者與產業界開始使用前代模型產生的合成數據(synthetic data)去訓練新一代模型。

這種資料訓練的迴圈,形成了一條潛在的「自我消耗」路徑:

下一代的模型並非只從真實世界(real-world)收集資料,也同時將前一代模型所生成之合成資料納入訓練。

該研究指出,若在每次迭代中缺乏足量且新鮮的真實資料,生成模型的品質(quality)與多樣性(diversity)都會逐漸退化,最終將陷入所謂的模型自嗜(Model Autophagy Disorder, MAD)的狀態

為了更具體地剖析該現象,本研究將模型自我吞噬的生成式訓練迴圈分為三類情境,並進一步探討「抽樣偏倚」(sampling bias)對品質與多樣性的顯著影響,同時說明如何才能避免模型長期表現走下坡。


自我吞噬生成模型(Autophagous Generative Process)

生成式模型(例如 GAN、Diffusion Models、StyleGAN、ChatGPT 等)在影像、文本及其他資料類型上的成果驚人。

隨著開源模型與商業服務的普及,海量合成內容被上傳到網路或匯入資料庫,這些合成資料在無形之中又回流並用於訓練新一代的模型。

如此一來,我們就得面對生成模型「反芻」前一代模型自己產生的合成資料的狀況,而出現連續的自我循環(self-consuming loop)。

本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據,Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源:本研究。

本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據,Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源:本研究。



自我吞噬迴圈對應的現象

在每一代的模型訓練中,如果加入的合成資料比例過高,而真實資料來源又不足或缺乏更新,可能使模型對真實分佈(reference distribution)的推算漸行漸遠:合成圖片或文字的品質下滑,或者多樣性崩潰。

若此過程重複足夠多次,便會觸發 Model Autophagy Disorder (MAD),如同生物學中「狂牛症」的隱喻 — — 反覆餵食已被污染的食材,導致整個生態圈最終受害。


MAD(Model Autophagy Disorder)的要點

MAD 的核心在於,模型與真實分佈的距離會隨著模型的疊代、增長而越來越大。

同時,模型會在「品質」(能不能生成逼真的樣本)與「多樣性」(能不能覆蓋多種類型的真實樣本)之間產生惡化。

若長期缺乏足量的新鮮真實資料,品質或多樣性將不可避免地出現退化,不論是朝「模式崩潰」(mode collapse)或「高品質但缺乏多樣性」的方向,都同樣失衡。

MAD 的核心在於,模型與真實分佈的距離會隨著模型的疊代、增長而越來越大。




三種自我吞噬的訓練迴圈

本分研究將生成式模型的自我吞噬歸現象,納為三種主要形態,差別在於每個世代(generation)在訓練新模型時加入多少新的真實資料,以及如何混合前代模型的合成資料(下圖皆來自本研究):


完全合成迴圈(Fully Synthetic Loop)

在 t ≥ 2 的每一代模型,模型只使用前一代或前幾代模型生成的合成資料。沒有任何新的真實資料進入。

這個情境通常在一些「反覆微調」(iterative fine-tuning)流程中出現,例如研究人員反覆用自己模型產生的高品質樣本來精修自身。

由於真實資料不再補充,誤差和偏差會在每輪訓練時被反覆「放大」或「移位」,最終導致生成分佈與真實分佈之間的距離越來越大。

raw-image


合成增強迴圈(Synthetic Augmentation Loop)

每個世代的模型訓練資料,由「固定的一批真實資料」與「前代生成的合成資料」組成。

固定真實資料幫助模型不至於完全遠離真實分佈,但若新資料不增加,隨著合成資料累積,模型最終依舊可能偏離真實分佈,因為固定的真實資料無法彌補前幾代模型演算所累積的偏差。

實務上常見於「資料不足」的情境下,研究者以合成方式擴大資料量(data augmentation),期望藉此提高模型的學習效果。

raw-image



新鮮資料迴圈(Fresh Data Loop)

每個世代都能拿到新的真實資料(fresh real data),再加上從前代或前幾代模型產生的合成資料。

這是最接近真實世界大數據環境的情境,因為隨著時間推移,網路或資料庫中會同時包含人類產出的真實樣本和先前 AI 模型產生的合成樣本。

若新鮮真實資料的比重足夠,便能有效防止模型品質和多樣性的退化,使生成模式不至於完全「走火入魔」。

raw-image




抽樣偏倚(Sampling Bias)的關鍵影響

研究者(或一般大眾)常常會特意挑選「看起來品質高」的合成樣本,捨棄品質低或有明顯瑕疵者,或者採用各種方式,壓縮合成樣本的多樣性以提升視覺品質。

這種作法在實務上相當普遍,可以用一個參數 λ 來代表抽樣時對「模態集中」的偏好程度;λ=1 表示完全不做偏倚,保持資料的多樣性,λ<1 則表示樣本分佈更集中在該模型的高密度區域,樣本較一致,但多樣性隨之下降。


λ=1 的影響

若 λ=1(無偏倚)的每一代模型產生的資料呈現「真實誤差隨機分布」,若真實資料不足,模型最終將走向品質和多樣性雙重下降

λ=1(無偏倚)的每一代模型演算出來的圖片仍保有多樣性,上圖為初代資料,下圖為演算至第九代的資料。來源:本研究。

λ=1(無偏倚)的每一代模型演算出來的圖片仍保有多樣性,上圖為初代資料,下圖為演算至第九代的資料。來源:本研究。



λ<1 的影響

若 λ<1(有偏倚)此時模型「寧可」產生高品質、單一風格的樣本,且會更快速喪失多樣性。對某些應用而言,或許看似品質維持得還不錯,但其實真實分佈中的許多模式都不再出現(mode collapse)。

例如,文本生成可能會只產生有限幾種句型與詞彙,影像生成也可能只專注於顏色或構圖的某些樣式。

λ<1(有偏倚)每一代模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。

λ<1(有偏倚)每一代模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。


理論與實驗分析:三種迴圈下的行為

完全合成迴圈(Fully Synthetic Loop)

使用 MNIST 上的 DDPM 或人臉 FFHQ 上的 StyleGAN2 皆出現類似情形:

  • 無偏倚(λ=1):模型的分佈會漸漸偏移真實分佈,品質與多樣性都下降。
  • 有偏倚(λ<1):品質維持或甚至上升,但多樣性迅速瓦解。

若進行 t-SNE 視覺化可發現生成資料的模態越來越集中,最終只剩幾種典型形態,其他模式消失。

在完全合成迴圈中,缺乏任何新的真實樣本補充,再加上抽樣偏倚,就算可以得到好看或清晰的「單一模態」合成影像,長久來看仍是品質或多樣性的長期退化。

完全合成迴圈的模型演算至第五代(Gen. 5),大部分的數字已經無法辨別,越往後演算得出的結果越加糟糕。來源:本研究。

完全合成迴圈的模型演算至第五代(Gen. 5),大部分的數字已經無法辨別,越往後演算得出的結果越加糟糕。來源:本研究。

完全合成迴圈的模型即使加上抽樣偏倚,保留了數字的可識別性,但最終生成的風格趨向一致。來源:本研究。

完全合成迴圈的模型即使加上抽樣偏倚,保留了數字的可識別性,但最終生成的風格趨向一致。來源:本研究。



合成增強迴圈(Synthetic Augmentation Loop)

每個世代都會把前代模型的合成資料加進訓練集,同時仍保留最初那批真實資料。但真實資料不增加、不更新。隨著迭代,合成資料的比例往往越來越大。

MNIST 上的 DDPM、FFHQ 上的 StyleGAN 實驗顯示:

  • 若沒有抽樣偏倚(λ=1),生成的品質和多樣性仍會隨代數降低,只是衰退速度較「完全合成迴圈」慢一些,因為還有一小部分真實資料「定錨」。
  • 若有抽樣偏倚(λ<1),同樣地,品質或許可以暫時保住,但多樣性下滑更快。

固定的一批真實資料可以延緩衰退,但無法從根本上阻止模型走向 MAD。時間一久,這些固定真實資料不足以彌補偏差的累積。

合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。

合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。



新鮮資料迴圈(Fresh Data Loop)

每個世代都注入來自真實分佈的新樣本(fresh data)。同時,仍會蒐集前代模型所產出的合成資料。這最貼近於現實:隨時間增加,資料庫內同時堆積新鮮真實資料與前幾代 AI 合成資料。

若每一輪都有足夠比例的新鮮真實資料,模型就能有效避免完全崩壞。調查該「足夠比例」時,發現當合成資料數量相對於真實資料太多,或抽樣偏倚太嚴重,仍可能讓模型最終失去多樣性或品質。

但若維持一個合適的「真實樣本比例」,生成分佈在許多情況下能長期穩定,甚至合成資料在初期還能擴大有效樣本數,對模型表現有所助益。

關鍵是「多少真實資料才算夠」,合成資料如果在某臨界值以下,反而能起到擴充 dataset 的正面效果;一旦超過臨界值,模型的誤差會開始急速累積,使結果惡化。




預防 MAD 的建議 

避免「餵食」無限量的舊合成資料

從實驗可知,若每代都只或主要依賴舊合成資料,偏誤會在多輪訓練裡面逐步放大,最終走向品質或多樣性的大規模流失。

在醫學或高隱私領域,人們可能利用合成數據來避免隱私洩露,但也需要謹慎評估過高比例的合成樣本是否產生負面影響。


抽樣偏倚與水印(Watermarking)

在生活應用中,人們往往會只挑選「看起來最真實」的合成樣本上傳到網路或放入公開資料庫,導致實際上出現在「環境」中的合成資料帶有強烈偏倚,進一步加速多樣性的流失。

有些研究致力於給生成內容做「隱式簽名」或「水印」,以便未來能在大規模資料中過濾合成內容,避免訓練集被過量合成資料「汙染」。但同時要注意,水印本身也是一種隱藏特徵,若反覆重複,可能被放大至影響整體資料分佈。


確保足量的新鮮真實資料

若能在每一代訓練或每隔數代引入充分且多元的真實資料,MAD 便能被避免或至少延後。

訓練規模越大,需要的真實資料越多,否則長久下來合成資料相較之下變得過多,模型最終仍會退化。


文字和其他媒材

本文以影像生成為主軸,但文本、語音、表格或其他數據型態的自我吞噬迴圈,理論上同樣適用。大型語言模型若重複使用自己產生的文字訓練後續版本,也可能出現語言模式崩潰、詞彙多樣性消失等問題。

研究人員在近期也看到類似結果:若一個語言模型大量接觸自己的產出文本,久而久之可能產生嚴重的風格趨同(style convergence),或是錯誤的資料被不斷放大。




若缺乏制度或技術解決方案,未來開發者可能無法避免新一代模型在「骯髒」的環境裡訓練

若缺乏制度或技術解決方案,未來開發者可能無法避免新一代模型在「骯髒」的環境裡訓練


隨著 AI 內容創作工具的普及,合成資料比例確實不斷上升。無論是在圖像、語音,還是文字等領域,若每一代都過度依賴前一代合成資料,且缺乏充足且新鮮的真實資料,將導致長期品質與多樣性的惡化。

在實務操作上,唯有持續加入新且足量的真實樣本、謹慎控制合成資料比例或偏倚程度,以及發展更有效的檢測機制。

若缺乏制度或技術解決方案,未來開發者可能無法避免新一代模型在「骯髒」的環境裡訓練,累積的偏誤大到必須投入更多真實資源做矯正

留言
avatar-img
留言分享你的想法!
普普文創-avatar-img
2025/01/24
數據的同質化確實是需要注意的,大數據抓取中庸最可能的職,而少掉了個性。久了自然所有答案就成為都一樣的情況。
鋼哥-avatar-img
發文者
2025/01/24
普普文創 真的~同質性跟多樣化在這篇研究一直是取捨的焦點
avatar-img
社會人的哲學沉思
122會員
259內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
2025/04/25
大型語言模型以自然的節奏說話,表達好奇心,甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實: 這些 AI 系統根本不具備這些人類特質。
Thumbnail
2025/04/25
大型語言模型以自然的節奏說話,表達好奇心,甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實: 這些 AI 系統根本不具備這些人類特質。
Thumbnail
2025/04/22
「懶惰原住民」(the Lazy Native)的迷思並非自然形成,而是殖民當局帶著明確的意識形態意圖精心打造的。
Thumbnail
2025/04/22
「懶惰原住民」(the Lazy Native)的迷思並非自然形成,而是殖民當局帶著明確的意識形態意圖精心打造的。
Thumbnail
2025/04/18
KK 指出,AI 的長期影響將超過電力與火的發明,但這個變革需要數百年來逐步展現。
Thumbnail
2025/04/18
KK 指出,AI 的長期影響將超過電力與火的發明,但這個變革需要數百年來逐步展現。
Thumbnail
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
我一直在觀察 AI 搜尋對內容產業的影響。 一開始以為只是 SEO 規則要改,後來才發現,問題不只出在演算法,而是資訊本身開始進入一種「自我重播」。 你查到的內容,看起來是答案,其實是你或別人說過的話,被整理、壓縮、重新丟回來。 如果你是做內容的,這不只是寫得好不好,而是你要怎麼讓自己還能被辨識。
Thumbnail
我一直在觀察 AI 搜尋對內容產業的影響。 一開始以為只是 SEO 規則要改,後來才發現,問題不只出在演算法,而是資訊本身開始進入一種「自我重播」。 你查到的內容,看起來是答案,其實是你或別人說過的話,被整理、壓縮、重新丟回來。 如果你是做內容的,這不只是寫得好不好,而是你要怎麼讓自己還能被辨識。
Thumbnail
合成數據並未能緩解數據缺乏的焦慮,隨著模型幾代的演算,生成的作品愈趨同質、失去多樣性;甚至,最後陷入模型自嗜的狀況。
Thumbnail
合成數據並未能緩解數據缺乏的焦慮,隨著模型幾代的演算,生成的作品愈趨同質、失去多樣性;甚至,最後陷入模型自嗜的狀況。
Thumbnail
研究指出,若在每次迭代中缺乏足量且新鮮的真實資料,生成模型的品質與多樣性都會逐漸退化,最終將陷入所謂的模型自嗜的狀態。
Thumbnail
研究指出,若在每次迭代中缺乏足量且新鮮的真實資料,生成模型的品質與多樣性都會逐漸退化,最終將陷入所謂的模型自嗜的狀態。
Thumbnail
在自動控制產業中,隨著人工智慧(AI)技術的快速發展,對數據品質的要求也越來越高。為了確保AI模型能夠有效地學習和做出精確的決策, 一個可靠且無損的原始數據源至關重要。傳統的雲端資料庫雖然可以儲存大量資料,但在處理
Thumbnail
在自動控制產業中,隨著人工智慧(AI)技術的快速發展,對數據品質的要求也越來越高。為了確保AI模型能夠有效地學習和做出精確的決策, 一個可靠且無損的原始數據源至關重要。傳統的雲端資料庫雖然可以儲存大量資料,但在處理
Thumbnail
AI發展未遇天花板,算力與推理模型成長驅動未來突破 b. 文章重點摘要: 隨著人工智慧生態系統的成熟,AI模型需要更聰明的推理能力。OpenAI的o1模型以較小參數規模和更多資料量實現更高效推論。 黃仁勳指出,延長模型思考時間能提升回答品質,而提高算力則能加速生成高品質答案。 AI的成長遵循
Thumbnail
AI發展未遇天花板,算力與推理模型成長驅動未來突破 b. 文章重點摘要: 隨著人工智慧生態系統的成熟,AI模型需要更聰明的推理能力。OpenAI的o1模型以較小參數規模和更多資料量實現更高效推論。 黃仁勳指出,延長模型思考時間能提升回答品質,而提高算力則能加速生成高品質答案。 AI的成長遵循
Thumbnail
數據洩漏是在機器學習和數據分析中,因不當使用資料而造成的模型性能評估錯誤。這篇文章探討數據洩漏的常見形式及其對模型可靠性的影響,並提供防範措施,如嚴格劃分數據集、僅對訓練集進行預處理和使用交叉驗證。瞭解這些概念有助於構建更穩健的數據驅動模型。
Thumbnail
數據洩漏是在機器學習和數據分析中,因不當使用資料而造成的模型性能評估錯誤。這篇文章探討數據洩漏的常見形式及其對模型可靠性的影響,並提供防範措施,如嚴格劃分數據集、僅對訓練集進行預處理和使用交叉驗證。瞭解這些概念有助於構建更穩健的數據驅動模型。
Thumbnail
隨著人工智能(AI)的飛速發展,研究人員不斷尋求最佳途徑來實現更加智能化的系統。無論是在遊戲、語言處理還是機器視覺領域,人工智能系統的性能有了顯著提升。然而,在這一進程中,一些關鍵的問題也浮現出來:AI應該依賴於人類設計的專家知識還是依賴於數據和計算能力的自我學習? 這個問題的答案可以
Thumbnail
隨著人工智能(AI)的飛速發展,研究人員不斷尋求最佳途徑來實現更加智能化的系統。無論是在遊戲、語言處理還是機器視覺領域,人工智能系統的性能有了顯著提升。然而,在這一進程中,一些關鍵的問題也浮現出來:AI應該依賴於人類設計的專家知識還是依賴於數據和計算能力的自我學習? 這個問題的答案可以
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。然而,資料清理在這個過程中顯得至關重要。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。然而,資料清理在這個過程中顯得至關重要。
Thumbnail
隨著生成式AI的興起,AI幻覺的問題日漸受到重視。AI幻覺指的是AI生成內容中的虛構與現實重疊現象,造成錯誤資訊的擴散。造成這一現象的原因包括訓練數據不足、模型缺失及惡意資訊注入。
Thumbnail
隨著生成式AI的興起,AI幻覺的問題日漸受到重視。AI幻覺指的是AI生成內容中的虛構與現實重疊現象,造成錯誤資訊的擴散。造成這一現象的原因包括訓練數據不足、模型缺失及惡意資訊注入。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News