📝📝:人類世界的數據將在五年內耗盡|大量使用「合成數據」近親繁殖,讓網路空間成為大染缸

更新 發佈閱讀 10 分鐘
raw-image


馬斯克觀察到 AI 產業正到達一個轉捩點 。根據他的說法

​ 「基本上我們已經耗盡了人類知識….. 特別在 AI 訓練方面的累積。」

2023 年以來,生成式 AI 大幅改變人類世界的資訊結構,出自人類之手的文章,其撰寫的速度遠比不過 ChatGPT 的生成。之後陸續蔓延至聲音、圖像、影音,不乏混雜大量參差不齊的拙作,網路反而變成內容的廚餘桶。

然而,科技巨頭發開 AI 的野心不僅沒有被澆熄,甚至更加白熱化;誠如馬斯克的擔憂,業界開始導入合成數據(synthetic data)訓練 AI,作為彌補數據即將耗盡的替代方案。

不料,合成數據並未能緩解數據缺乏的焦慮,隨著模型幾代的演算,生成的作品愈趨同質、失去多樣性;甚至,最後陷入模型自嗜的狀況。

原文刊載於《關鍵評論網》:人類世界數據將在五年內耗盡:大量「合成數據」近親繁殖,網路空間成為大染缸




人類已經成為 AI 內容的清潔員


2024 年 6 月,BBC 科技記者葛曼(Thomas Germain)深入報導第一線的文案寫手如何面對 ChatGPT 的衝擊,那時,距離 ChatGPT 的推出已經至少有一年的時間。

報導裡提到一位化名為「米勒」(Benjamin Miller)的文案經理,因為公司實施自動化政策並導入 ChatGPT 加速工作流程,僅在一年的時間內,輪番解雇米勒帶領的 60 人寫手團隊與專業編輯。


米勒原本負責為一家科技公司撰寫部落格文章,該公司蒐集並轉售各式各樣的資料,從房地產到二手車。這項工作既需要創意,也需要與主題專家合作,讓米勒的團隊有機會探索各種主題。米勒的職責包括監督內容的整體方向,並確保每篇文章都能兼具準確性和原創性。

當米勒的公司開始採用 ChatGPT 時,這一切都改變了。

最初,米勒的經理會在線上表格中輸入標題,交由 AI 模型產生大綱。米勒的寫手團隊只需要根據這些 AI 生成的大綱撰寫文章,文章上架前,米勒會進行最後的潤稿。幾個月後,公司又增加了一輪自動化:ChatGPT 開始從頭到尾撰寫整篇文章。使得米勒團隊中的大多數人都被淘汰,只剩下幾個人在出版前做最後的編輯。

到了 2024 年,連僅有的幾個職位也不見了。

米勒突然發現自己孤身一人,他每天一上班,就在電腦上打開 ChatGPT 生成的文件,整理蹩腳的用字,刪除呆板的詞句,去除文字中的機械感。米勒不再需要開發新的題材,只能從事重複性的工作 :潤飾那些缺乏「人味」的句子,修改著沒有生命力的文字。

幾個月後,公司將潤稿的工作也交給 AI 執行,米勒最終也被解雇了,眼睜睜看著公司內容管道中最後一道人工檢核關卡消失


AI 廚餘讓網路使用者「腦腐」


米勒可以說是這一波 AI 浪潮下,首當其衝的受害者,一旦生產的速度超過人工檢核的流程,這些未經檢核的內容將會在網路的各個角落四處流竄。維基百科的編輯就面臨了站內充斥著不實的資訊,像是:不存在的堡壘、畸形的手部、七趾的腳。

2023 年 12 月,一群維基百科的編輯組成了名為 WikiProject AI Cleanup 的團隊。目標是清理文筆拙劣的 AI 生成內容,以保護這座全球最大的資料庫,避免受到錯誤條目的汙染。


WikiProject AI Cleanup 小組檢查維基百科的方法,類似於在科學期刊和 Google Books 中尋找 AI 生成內容的技術。

團隊成員透過搜尋 ChatGPT 常用的詞組來鑑定 AI 生成內容。根據非營利媒體 404 Media 報導,其中一個最典型的案例是關於切斯特精神健康中心(Chester Mental Health Center的條目。該條目在 2023 年 11 月曾註明「截至我最近一次知識更新在 2022 年 1 月」明顯是 AI 模型生成的內容。


WikiProject AI Cleanup 小組坦言,並非所有 AI 生成內容都如此容易檢測。團隊其中一位成員 Queen of Hearts 就曾發現關於 Amberlisihar 的條目。這篇關於鄂圖曼堡壘的文章超過 2000 字,乍看之下寫得非常有條理,甚至包含:堡壘名稱、建造細節、參與的建築師,以及該堡壘在第一次世界大戰期間,受到俄軍轟炸後的修復工作。

Queen of Hearts 實際一搜尋, 卻發現這座堡壘根本不存在。


WikiProject AI Cleanup 的創始成員雷布勒之一(Ilyas Lebleu)解釋道,假的條目對於資訊生態的影響往往比預期的嚴重,因為這些錯誤條目可能需要好幾個月才能被察覺,有時,AI 生成的文本會引用真實的學術資源,但引用內容與文章內容毫無關聯。

除了純文字的條目,WikiProject AI Cleanup 也會需要清理 AI 生成的虛構甚至荒謬的圖片。團隊某次在處理一篇關於 Darul Uloom Deoband 的條目,發現了一張看似相關的歷史畫作。但仔細檢查後發現圖片中的人物,有著明顯的 AI 生成特徵:畸形的手部、一隻七趾的腳。

AI 生成的人手有著相當拙劣的錯誤。由 Leonardo ai 生成。

AI 生成的人手有著相當拙劣的錯誤。由 Leonardo ai 生成。


2024 年末,《牛津英語詞典》(Oxford English Dictionary;OED將 Brain Rot(腦腐)選為 2024 的年度詞彙,正是反映了生成式 AI 所帶來的隱憂。《牛津英語詞典》也指出,約在年底左右,slop 一詞的使用量迅速增加了 332%。

主因正是因為 AI Slop(AI 廚餘)的盛行,AI Slop 專指生成式 AI 產出的作品(文章、音樂、圖片、影音等),勾勒出當代的低品質數位內容,越來越常出現在各大社群媒體。

根據 AI 檢測公司 Originality AI 2024 年的分析,商業社群平台 LinkedIn 上超過 54% 的長篇英文貼文可能都是由 AI 生成。《WIRED》的報導也揭露,部落格平台 Medium 上有 47% 的文章,可能都不是由人類所撰寫。全球最大的影音素材網站 Adobe Stock 也遭到 AI 內容汙染,許多設計師抱怨,自己得要花兩倍以上的時間才能找到合適的圖片


數據耗盡的焦慮:合成數據近親繁殖


文章開篇提到馬斯克的觀察,他推估,人類世界的數據很有可能在 2026~2028 年間耗盡。馬斯克主張,解決數據短缺的「唯一方式」,就是利用由 AI 生成的合成數據(synthetic data)。不過,這種資料訓練的迴圈,形成了一條潛在的「自我消耗」路徑:

下一代的模型並非只從真實世界(real-world)收集資料,也同時將前一代模型所生成之合成資料納入訓練。

2023 年的一份聯合研究Self-Consuming Generative Models Go MAD提到,每次訓練中若缺乏足量且新鮮的真實資料(Fresh Real Data),模型生成的品質(quality)與多樣性(diversity)都會逐漸退化,最終將陷入所謂的模型自嗜(Model Autophagy Disorder, MAD)的狀態


本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據,Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源:該研究。

本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據,Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源:該研究。


換句話說,到了人類數據用罄的那天,生成式 AI 每一次的演算,都是大量使用合成數據在進行近親繁殖。如同歷史上的貴族家庭,試圖藉由近親繁殖保留純種且優良的基因,只會增加不良隱性性狀的基因表現,導致後代子嗣的環境適應力衰退。


本研究將生成式模型的自我吞噬現象分為三種主要形態:

  • 完全合成迴圈(Fully Synthetic Loop)
  • 合成增強迴圈(Synthetic Augmentation Loop)
  • 新鮮資料迴圈(Fresh Data Loop)


每個迴圈的訓練方式差別在於每個世代(generation)在訓練新模型時加入多少新的真實資料,以及如何混合前代模型的合成資料。完全合成迴圈完全使用合成過的資料,合成增強迴圈次之,新鮮資料迴圈則完全使用真實世界的新鮮資料。


完全合成迴圈

在完全合成迴圈中,僅用合成數據訓練模型,不使用也不補充任何新鮮的真實樣本,再加上抽樣偏倚,就算可以得到好看或清晰的「單一模態」合成影像,長久來看仍是品質或多樣性的長期退化。

完全合成迴圈下的模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。

完全合成迴圈下的模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。


合成增強迴圈

合成增強迴圈的模式下,每個世代都會把前代模型的合成資料加進訓練的數據集,但同時保留原始的一批真實資料,但不增加、不更新。隨著模型接續演算,原始真實資料會慢慢被稀釋,合成資料的比例越來越大。

固定的一批真實資料可以延緩衰退,但無法從根本上阻止模型走向自我吞噬的境地。時間一久,合成資料仍舊會佔據主導地位,進而影響生成的品質。


合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。箭頭為自行加註。

合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。箭頭為自行加註。


唯獨新鮮數據的訓練迴圈可以避免模型崩潰,研究最後也主張,若要在自噬循環的每一代中,沒有足夠的新鮮真實數據,那麼未來生成的模型將會注定落入精確度、多樣性的損失。換句話說,模型訓練時應盡量引入新鮮的真實數據,用浮水印(Watermarking)標記使用過的資料,以確保模型效能。




無論是米勒遇到「自動化」政策而導致裁員、WikiProject AI Cleanup 面臨的錯誤條目汙染維基百科,或是《牛津英語辭典》年度選字所捕捉到的腦腐文化,三者都共享了一個關於技術的不爭事實:

AI 的光鮮亮麗,遠不及其所帶來的負面漩渦;並且隨著 AI 內容創作工具的普及,合成資料的風險也在不斷上升。

若每一代的模型都過度依賴前一代合成資料,無論是在圖像、語音,或是純文字等領域,只要缺乏充足且新鮮的真實資料,長遠來看,都會導致生成的內容品質與多樣性惡化。

未來的 AI 開發人員可能將會在「骯髒」的環境裡訓練模型,而一般的使用者只能在大染缸裡反芻 AI 排泄的廚餘。最終,累積的偏誤大到必須投入更多時間、精力才能修復。科技巨頭所允諾 AI 解放人力的幻夢,最終還是得交由人類親自收拾其殘局。








留言
avatar-img
社會人的哲學沉思
169會員
325內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
2025/03/25
切卡指出,我們正處於一個由演算法塑造的文化生態中,這些所謂「個人化」的推薦機制,其核心邏輯並非拓寬大眾的文化視野,而是加強可預測性與舒適性。
Thumbnail
2025/03/25
切卡指出,我們正處於一個由演算法塑造的文化生態中,這些所謂「個人化」的推薦機制,其核心邏輯並非拓寬大眾的文化視野,而是加強可預測性與舒適性。
Thumbnail
2024/11/12
因為 Spotify 的推薦機制,當代歌曲的副歌都有往前的現象;甚至,現在歌曲的時長也正在縮短。
Thumbnail
2024/11/12
因為 Spotify 的推薦機制,當代歌曲的副歌都有往前的現象;甚至,現在歌曲的時長也正在縮短。
Thumbnail
2023/11/07
AI 的出現擊垮了人類何以為「人」的驕傲,我們對 AI 的恐懼反映了人類自身的存在危機。AI 在大量數據的訓練下產生了專屬機器的「暗知識」,而暗知識將會顛覆人類社會對科技的想像。
Thumbnail
2023/11/07
AI 的出現擊垮了人類何以為「人」的驕傲,我們對 AI 的恐懼反映了人類自身的存在危機。AI 在大量數據的訓練下產生了專屬機器的「暗知識」,而暗知識將會顛覆人類社會對科技的想像。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
抒發一下 在這個數位時代,我越來越感受到一種壓力,這種壓力來自於社交媒體上的演算法和流量競爭。
Thumbnail
抒發一下 在這個數位時代,我越來越感受到一種壓力,這種壓力來自於社交媒體上的演算法和流量競爭。
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
在流量為王的網路時代,有多少網路工作者被瀏覽數及追蹤數等數據所掌控? 又有多少人會以網路流量為評斷依據,判斷究竟一個人說出口的話「有沒有價值」? 在面對一項人事物時,不少人都容易簡單粗略地以「外在價值」來做評斷, 但價值其實不僅僅存在於外在、可量化的,更多的是隱藏在內、難以量化的深度價值。
Thumbnail
在流量為王的網路時代,有多少網路工作者被瀏覽數及追蹤數等數據所掌控? 又有多少人會以網路流量為評斷依據,判斷究竟一個人說出口的話「有沒有價值」? 在面對一項人事物時,不少人都容易簡單粗略地以「外在價值」來做評斷, 但價值其實不僅僅存在於外在、可量化的,更多的是隱藏在內、難以量化的深度價值。
Thumbnail
資訊爆炸的時代給人帶來了巨大的衝擊。無論是數位化進程還是社交媒體,資訊過載都對人們的生活產生了深遠的影響。這對年輕人來說尤為重要,他們面臨著價值觀變化、迷失方向和享樂主義等挑戰。為了應對這些問題,人們需要學會信息篩選、培養批判性思維、保持專注和平衡生活。
Thumbnail
資訊爆炸的時代給人帶來了巨大的衝擊。無論是數位化進程還是社交媒體,資訊過載都對人們的生活產生了深遠的影響。這對年輕人來說尤為重要,他們面臨著價值觀變化、迷失方向和享樂主義等挑戰。為了應對這些問題,人們需要學會信息篩選、培養批判性思維、保持專注和平衡生活。
Thumbnail
隨著數位科技的迅猛發展,資訊爆炸已成為當今社會的一大現象。從網際網路到社交媒體,從手機應用到網路搜索,我們每天接收到的資訊量遠超過過去任何時代。 這篇文章探討了資訊爆炸對於多元性與挑戰、專注力與分心問題以及心理健康和壓力的影響,並提出了相應的應對策略。
Thumbnail
隨著數位科技的迅猛發展,資訊爆炸已成為當今社會的一大現象。從網際網路到社交媒體,從手機應用到網路搜索,我們每天接收到的資訊量遠超過過去任何時代。 這篇文章探討了資訊爆炸對於多元性與挑戰、專注力與分心問題以及心理健康和壓力的影響,並提出了相應的應對策略。
Thumbnail
隨著數據資產化進程的加速,數據不僅成為企業的重要資源,也逐漸影響到我們的日常生活。了解數據資產化如何改變我們的生活,以及我們如何利用這個趨勢進行套利,對每個人來說都是有價值的。
Thumbnail
隨著數據資產化進程的加速,數據不僅成為企業的重要資源,也逐漸影響到我們的日常生活。了解數據資產化如何改變我們的生活,以及我們如何利用這個趨勢進行套利,對每個人來說都是有價值的。
Thumbnail
前陣子,看到個貼文,大意是說, 簡體中文網路資訊正在「斷崖式銳減」。 連馬雲這樣的人物,2005年之前的相關資料也都沒了。 他說, 原因當然是跟政治審查有關, 但另一個理由是,很多提供網路服務的公司都消失了。 或許這樣說:新形態的影音服務出現, 從前的文字資訊的服務,不敵競爭,
Thumbnail
前陣子,看到個貼文,大意是說, 簡體中文網路資訊正在「斷崖式銳減」。 連馬雲這樣的人物,2005年之前的相關資料也都沒了。 他說, 原因當然是跟政治審查有關, 但另一個理由是,很多提供網路服務的公司都消失了。 或許這樣說:新形態的影音服務出現, 從前的文字資訊的服務,不敵競爭,
Thumbnail
網路的大數據真的蠻可怕也蠻神奇的。 常常不小心點了什麼廣告,之後就會跑一堆類似的出來,或是看了什麼影片,也會跑一堆同性質的影片出來。 去年底到今年初很常看某些韓團的影片,刷一排幾乎都是,可以一直看一直看也是蠻不錯的,有歌曲、舞蹈,或是韓綜,從不太熟刷到變成很熟的路人粉。 不過除了大數據刷出
Thumbnail
網路的大數據真的蠻可怕也蠻神奇的。 常常不小心點了什麼廣告,之後就會跑一堆類似的出來,或是看了什麼影片,也會跑一堆同性質的影片出來。 去年底到今年初很常看某些韓團的影片,刷一排幾乎都是,可以一直看一直看也是蠻不錯的,有歌曲、舞蹈,或是韓綜,從不太熟刷到變成很熟的路人粉。 不過除了大數據刷出
Thumbnail
關於這本書,我認為...... 《深度數位大掃除》是一本出乎意料的優質好書。 自從社群媒體、大數據、人工智慧等陸續問世,對於科技如何快速進展,進而滲透人類生活的相關研究已屢見不鮮。原以為這類主題大概是敘述科技對人類生理、心理的負面影響,並提供一些老生常談的方法來杜絕。 但這本書卻提供另一個
Thumbnail
關於這本書,我認為...... 《深度數位大掃除》是一本出乎意料的優質好書。 自從社群媒體、大數據、人工智慧等陸續問世,對於科技如何快速進展,進而滲透人類生活的相關研究已屢見不鮮。原以為這類主題大概是敘述科技對人類生理、心理的負面影響,並提供一些老生常談的方法來杜絕。 但這本書卻提供另一個
Thumbnail
學術文化、數位科技,人工智慧發展的進步非常神速。海量的資訊迎面而來、各式各樣的創作成品,透過數位搜索工具,很容易被取得,也容易辨識作品是抄襲或原創。有志氣的寫作者都希望自己的成果越來越傑出,在各自領域出人頭地。抄襲是個罪行,很容易理解,也被絶大多數創作者視為不能觸碰的「天條」。 最
Thumbnail
學術文化、數位科技,人工智慧發展的進步非常神速。海量的資訊迎面而來、各式各樣的創作成品,透過數位搜索工具,很容易被取得,也容易辨識作品是抄襲或原創。有志氣的寫作者都希望自己的成果越來越傑出,在各自領域出人頭地。抄襲是個罪行,很容易理解,也被絶大多數創作者視為不能觸碰的「天條」。 最
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News