📝📝：人類世界的數據將在五年內耗盡｜大量使用「合成數據」近親繁殖，讓網路空間成為大染缸

鋼哥

發佈於資訊科技文化評論

2025/02/25 更新2025/02/25 發佈閱讀 10 分鐘

馬斯克觀察到 AI 產業正到達一個轉捩點。根據他的說法

「基本上我們已經耗盡了人類知識….. 特別在 AI 訓練方面的累積。」

2023 年以來，生成式 AI 大幅改變人類世界的資訊結構，出自人類之手的文章，其撰寫的速度遠比不過 ChatGPT 的生成。之後陸續蔓延至聲音、圖像、影音，不乏混雜大量參差不齊的拙作，網路反而變成內容的廚餘桶。

然而，科技巨頭發開 AI 的野心不僅沒有被澆熄，甚至更加白熱化；誠如馬斯克的擔憂，業界開始導入合成數據（synthetic data）訓練 AI，作為彌補數據即將耗盡的替代方案。

不料，合成數據並未能緩解數據缺乏的焦慮，隨著模型幾代的演算，生成的作品愈趨同質、失去多樣性；甚至，最後陷入模型自嗜的狀況。

原文刊載於《關鍵評論網》：人類世界數據將在五年內耗盡：大量「合成數據」近親繁殖，網路空間成為大染缸

人類已經成為 AI 內容的清潔員

2024 年 6 月，BBC 科技記者葛曼（Thomas Germain）深入報導第一線的文案寫手如何面對 ChatGPT 的衝擊，那時，距離 ChatGPT 的推出已經至少有一年的時間。

報導裡提到一位化名為「米勒」（Benjamin Miller）的文案經理，因為公司實施自動化政策並導入 ChatGPT 加速工作流程，僅在一年的時間內，輪番解雇米勒帶領的 60 人寫手團隊與專業編輯。

Jonathan Kemper on Unsplash

米勒原本負責為一家科技公司撰寫部落格文章，該公司蒐集並轉售各式各樣的資料，從房地產到二手車。這項工作既需要創意，也需要與主題專家合作，讓米勒的團隊有機會探索各種主題。米勒的職責包括監督內容的整體方向，並確保每篇文章都能兼具準確性和原創性。

當米勒的公司開始採用 ChatGPT 時，這一切都改變了。

最初，米勒的經理會在線上表格中輸入標題，交由 AI 模型產生大綱。米勒的寫手團隊只需要根據這些 AI 生成的大綱撰寫文章，文章上架前，米勒會進行最後的潤稿。幾個月後，公司又增加了一輪自動化：ChatGPT 開始從頭到尾撰寫整篇文章。使得米勒團隊中的大多數人都被淘汰，只剩下幾個人在出版前做最後的編輯。

到了 2024 年，連僅有的幾個職位也不見了。

米勒突然發現自己孤身一人，他每天一上班，就在電腦上打開 ChatGPT 生成的文件，整理蹩腳的用字，刪除呆板的詞句，去除文字中的機械感。米勒不再需要開發新的題材，只能從事重複性的工作：潤飾那些缺乏「人味」的句子，修改著沒有生命力的文字。

幾個月後，公司將潤稿的工作也交給 AI 執行，米勒最終也被解雇了，眼睜睜看著公司內容管道中最後一道人工檢核關卡消失。

AI 廚餘讓網路使用者「腦腐」

米勒可以說是這一波 AI 浪潮下，首當其衝的受害者，一旦生產的速度超過人工檢核的流程，這些未經檢核的內容將會在網路的各個角落四處流竄。維基百科的編輯就面臨了站內充斥著不實的資訊，像是：不存在的堡壘、畸形的手部、七趾的腳。

2023 年 12 月，一群維基百科的編輯組成了名為 WikiProject AI Cleanup 的團隊。目標是清理文筆拙劣的 AI 生成內容，以保護這座全球最大的資料庫，避免受到錯誤條目的汙染。

Oberon Copeland @veryinformed.com on Unsplash

WikiProject AI Cleanup 小組檢查維基百科的方法，類似於在科學期刊和 Google Books 中尋找 AI 生成內容的技術。

團隊成員透過搜尋 ChatGPT 常用的詞組來鑑定 AI 生成內容。根據非營利媒體 404 Media 報導，其中一個最典型的案例是關於切斯特精神健康中心（Chester Mental Health Center）的條目。該條目在 2023 年 11 月曾註明「截至我最近一次知識更新在 2022 年 1 月」明顯是 AI 模型生成的內容。

WikiProject AI Cleanup 小組坦言，並非所有 AI 生成內容都如此容易檢測。團隊其中一位成員 Queen of Hearts 就曾發現關於 Amberlisihar 的條目。這篇關於鄂圖曼堡壘的文章超過 2000 字，乍看之下寫得非常有條理，甚至包含：堡壘名稱、建造細節、參與的建築師，以及該堡壘在第一次世界大戰期間，受到俄軍轟炸後的修復工作。

Queen of Hearts 實際一搜尋，卻發現這座堡壘根本不存在。

WikiProject AI Cleanup 的創始成員雷布勒之一（Ilyas Lebleu）解釋道，假的條目對於資訊生態的影響往往比預期的嚴重，因為這些錯誤條目可能需要好幾個月才能被察覺，有時，AI 生成的文本會引用真實的學術資源，但引用內容與文章內容毫無關聯。

除了純文字的條目，WikiProject AI Cleanup 也會需要清理 AI 生成的虛構甚至荒謬的圖片。團隊某次在處理一篇關於 Darul Uloom Deoband 的條目，發現了一張看似相關的歷史畫作。但仔細檢查後發現圖片中的人物，有著明顯的 AI 生成特徵：畸形的手部、一隻七趾的腳。

AI 生成的人手有著相當拙劣的錯誤。由 Leonardo ai 生成。

2024 年末，《牛津英語詞典》（Oxford English Dictionary；OED）將 Brain Rot（腦腐）選為 2024 的年度詞彙，正是反映了生成式 AI 所帶來的隱憂。《牛津英語詞典》也指出，約在年底左右，slop 一詞的使用量迅速增加了 332%。

主因正是因為 AI Slop（AI 廚餘）的盛行，AI Slop 專指生成式 AI 產出的作品（文章、音樂、圖片、影音等），勾勒出當代的低品質數位內容，越來越常出現在各大社群媒體。

根據 AI 檢測公司 Originality AI 2024 年的分析，商業社群平台 LinkedIn 上超過 54% 的長篇英文貼文可能都是由 AI 生成。《WIRED》的報導也揭露，部落格平台 Medium 上有 47% 的文章，可能都不是由人類所撰寫。全球最大的影音素材網站 Adobe Stock 也遭到 AI 內容汙染，許多設計師抱怨，自己得要花兩倍以上的時間才能找到合適的圖片。

數據耗盡的焦慮：合成數據近親繁殖

文章開篇提到馬斯克的觀察，他推估，人類世界的數據很有可能在 2026~2028 年間耗盡。馬斯克主張，解決數據短缺的「唯一方式」，就是利用由 AI 生成的合成數據（synthetic data）。不過，這種資料訓練的迴圈，形成了一條潛在的「自我消耗」路徑：

下一代的模型並非只從真實世界（real-world）收集資料，也同時將前一代模型所生成之合成資料納入訓練。

2023 年的一份聯合研究《Self-Consuming Generative Models Go MAD》提到，每次訓練中若缺乏足量且新鮮的真實資料（Fresh Real Data），模型生成的品質（quality）與多樣性（diversity）都會逐漸退化，最終將陷入所謂的模型自嗜（Model Autophagy Disorder, MAD）的狀態。

本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據，Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源：該研究。

換句話說，到了人類數據用罄的那天，生成式 AI 每一次的演算，都是大量使用合成數據在進行近親繁殖。如同歷史上的貴族家庭，試圖藉由近親繁殖保留純種且優良的基因，只會增加不良隱性性狀的基因表現，導致後代子嗣的環境適應力衰退。

本研究將生成式模型的自我吞噬現象分為三種主要形態：

完全合成迴圈（Fully Synthetic Loop）
合成增強迴圈（Synthetic Augmentation Loop）
新鮮資料迴圈（Fresh Data Loop）

每個迴圈的訓練方式差別在於每個世代（generation）在訓練新模型時加入多少新的真實資料，以及如何混合前代模型的合成資料。完全合成迴圈完全使用合成過的資料，合成增強迴圈次之，新鮮資料迴圈則完全使用真實世界的新鮮資料。

完全合成迴圈

在完全合成迴圈中，僅用合成數據訓練模型，不使用也不補充任何新鮮的真實樣本，再加上抽樣偏倚，就算可以得到好看或清晰的「單一模態」合成影像，長久來看仍是品質或多樣性的長期退化。

完全合成迴圈下的模型演算出來的圖片會逐漸開始失去多樣性，上圖為初代資料，下圖為演算至第五代的資料。來源：本研究。

合成增強迴圈

合成增強迴圈的模式下，每個世代都會把前代模型的合成資料加進訓練的數據集，但同時保留原始的一批真實資料，但不增加、不更新。隨著模型接續演算，原始真實資料會慢慢被稀釋，合成資料的比例越來越大。

固定的一批真實資料可以延緩衰退，但無法從根本上阻止模型走向自我吞噬的境地。時間一久，合成資料仍舊會佔據主導地位，進而影響生成的品質。

合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源：本研究。箭頭為自行加註。

唯獨新鮮數據的訓練迴圈可以避免模型崩潰，研究最後也主張，若要在自噬循環的每一代中，沒有足夠的新鮮真實數據，那麼未來生成的模型將會注定落入精確度、多樣性的損失。換句話說，模型訓練時應盡量引入新鮮的真實數據，用浮水印（Watermarking）標記使用過的資料，以確保模型效能。

無論是米勒遇到「自動化」政策而導致裁員、WikiProject AI Cleanup 面臨的錯誤條目汙染維基百科，或是《牛津英語辭典》年度選字所捕捉到的腦腐文化，三者都共享了一個關於技術的不爭事實：

AI 的光鮮亮麗，遠不及其所帶來的負面漩渦；並且隨著 AI 內容創作工具的普及，合成資料的風險也在不斷上升。

若每一代的模型都過度依賴前一代合成資料，無論是在圖像、語音，或是純文字等領域，只要缺乏充足且新鮮的真實資料，長遠來看，都會導致生成的內容品質與多樣性惡化。

未來的 AI 開發人員可能將會在「骯髒」的環境裡訓練模型，而一般的使用者只能在大染缸裡反芻 AI 排泄的廚餘。最終，累積的偏誤大到必須投入更多時間、精力才能修復。科技巨頭所允諾 AI 解放人力的幻夢，最終還是得交由人類親自收拾其殘局。

留言

社會人的哲學沉思

185會員

337內容數

從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

社會人的哲學沉思的其他內容

2025/03/25

📝📝：品味的扁平化，60 年前就開始了｜AI 時代的演算法推薦機制，如何進一步損害人們的品味和選擇？

切卡指出，我們正處於一個由演算法塑造的文化生態中，這些所謂「個人化」的推薦機制，其核心邏輯並非拓寬大眾的文化視野，而是加強可預測性與舒適性。

2025/03/25

📝📝：品味的扁平化，60 年前就開始了｜AI 時代的演算法推薦機制，如何進一步損害人們的品味和選擇？

2024/11/12

📝📝：人們越來越耐不住太久的歌？｜從 Spotify 的收聽數據發現流行歌曲的「抖音化」現象

因為 Spotify 的推薦機制，當代歌曲的副歌都有往前的現象；甚至，現在歌曲的時長也正在縮短。

2024/11/12

📝📝：人們越來越耐不住太久的歌？｜從 Spotify 的收聽數據發現流行歌曲的「抖音化」現象

因為 Spotify 的推薦機制，當代歌曲的副歌都有往前的現象；甚至，現在歌曲的時長也正在縮短。

2023/11/07

📝📝：在 AI 時代尋找人類痕跡

AI 的出現擊垮了人類何以為「人」的驕傲，我們對 AI 的恐懼反映了人類自身的存在危機。AI 在大量數據的訓練下產生了專屬機器的「暗知識」，而暗知識將會顛覆人類社會對科技的想像。

2023/11/07

📝📝：在 AI 時代尋找人類痕跡

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11