📝📝:人類世界的數據將在五年內耗盡|大量使用「合成數據」近親繁殖,讓網路空間成為大染缸

更新於 發佈於 閱讀時間約 10 分鐘
raw-image


馬斯克觀察到 AI 產業正到達一個轉捩點 。根據他的說法

​ 「基本上我們已經耗盡了人類知識….. 特別在 AI 訓練方面的累積。」

2023 年以來,生成式 AI 大幅改變人類世界的資訊結構,出自人類之手的文章,其撰寫的速度遠比不過 ChatGPT 的生成。之後陸續蔓延至聲音、圖像、影音,不乏混雜大量參差不齊的拙作,網路反而變成內容的廚餘桶。

然而,科技巨頭發開 AI 的野心不僅沒有被澆熄,甚至更加白熱化;誠如馬斯克的擔憂,業界開始導入合成數據(synthetic data)訓練 AI,作為彌補數據即將耗盡的替代方案。

不料,合成數據並未能緩解數據缺乏的焦慮,隨著模型幾代的演算,生成的作品愈趨同質、失去多樣性;甚至,最後陷入模型自嗜的狀況。

原文刊載於《關鍵評論網》:人類世界數據將在五年內耗盡:大量「合成數據」近親繁殖,網路空間成為大染缸




人類已經成為 AI 內容的清潔員


2024 年 6 月,BBC 科技記者葛曼(Thomas Germain)深入報導第一線的文案寫手如何面對 ChatGPT 的衝擊,那時,距離 ChatGPT 的推出已經至少有一年的時間。

報導裡提到一位化名為「米勒」(Benjamin Miller)的文案經理,因為公司實施自動化政策並導入 ChatGPT 加速工作流程,僅在一年的時間內,輪番解雇米勒帶領的 60 人寫手團隊與專業編輯。


米勒原本負責為一家科技公司撰寫部落格文章,該公司蒐集並轉售各式各樣的資料,從房地產到二手車。這項工作既需要創意,也需要與主題專家合作,讓米勒的團隊有機會探索各種主題。米勒的職責包括監督內容的整體方向,並確保每篇文章都能兼具準確性和原創性。

當米勒的公司開始採用 ChatGPT 時,這一切都改變了。

最初,米勒的經理會在線上表格中輸入標題,交由 AI 模型產生大綱。米勒的寫手團隊只需要根據這些 AI 生成的大綱撰寫文章,文章上架前,米勒會進行最後的潤稿。幾個月後,公司又增加了一輪自動化:ChatGPT 開始從頭到尾撰寫整篇文章。使得米勒團隊中的大多數人都被淘汰,只剩下幾個人在出版前做最後的編輯。

到了 2024 年,連僅有的幾個職位也不見了。

米勒突然發現自己孤身一人,他每天一上班,就在電腦上打開 ChatGPT 生成的文件,整理蹩腳的用字,刪除呆板的詞句,去除文字中的機械感。米勒不再需要開發新的題材,只能從事重複性的工作 :潤飾那些缺乏「人味」的句子,修改著沒有生命力的文字。

幾個月後,公司將潤稿的工作也交給 AI 執行,米勒最終也被解雇了,眼睜睜看著公司內容管道中最後一道人工檢核關卡消失


AI 廚餘讓網路使用者「腦腐」


米勒可以說是這一波 AI 浪潮下,首當其衝的受害者,一旦生產的速度超過人工檢核的流程,這些未經檢核的內容將會在網路的各個角落四處流竄。維基百科的編輯就面臨了站內充斥著不實的資訊,像是:不存在的堡壘、畸形的手部、七趾的腳。

2023 年 12 月,一群維基百科的編輯組成了名為 WikiProject AI Cleanup 的團隊。目標是清理文筆拙劣的 AI 生成內容,以保護這座全球最大的資料庫,避免受到錯誤條目的汙染。


WikiProject AI Cleanup 小組檢查維基百科的方法,類似於在科學期刊和 Google Books 中尋找 AI 生成內容的技術。

團隊成員透過搜尋 ChatGPT 常用的詞組來鑑定 AI 生成內容。根據非營利媒體 404 Media 報導,其中一個最典型的案例是關於切斯特精神健康中心(Chester Mental Health Center的條目。該條目在 2023 年 11 月曾註明「截至我最近一次知識更新在 2022 年 1 月」明顯是 AI 模型生成的內容。


WikiProject AI Cleanup 小組坦言,並非所有 AI 生成內容都如此容易檢測。團隊其中一位成員 Queen of Hearts 就曾發現關於 Amberlisihar 的條目。這篇關於鄂圖曼堡壘的文章超過 2000 字,乍看之下寫得非常有條理,甚至包含:堡壘名稱、建造細節、參與的建築師,以及該堡壘在第一次世界大戰期間,受到俄軍轟炸後的修復工作。

Queen of Hearts 實際一搜尋, 卻發現這座堡壘根本不存在。


WikiProject AI Cleanup 的創始成員雷布勒之一(Ilyas Lebleu)解釋道,假的條目對於資訊生態的影響往往比預期的嚴重,因為這些錯誤條目可能需要好幾個月才能被察覺,有時,AI 生成的文本會引用真實的學術資源,但引用內容與文章內容毫無關聯。

除了純文字的條目,WikiProject AI Cleanup 也會需要清理 AI 生成的虛構甚至荒謬的圖片。團隊某次在處理一篇關於 Darul Uloom Deoband 的條目,發現了一張看似相關的歷史畫作。但仔細檢查後發現圖片中的人物,有著明顯的 AI 生成特徵:畸形的手部、一隻七趾的腳。

AI 生成的人手有著相當拙劣的錯誤。由 Leonardo ai 生成。

AI 生成的人手有著相當拙劣的錯誤。由 Leonardo ai 生成。


2024 年末,《牛津英語詞典》(Oxford English Dictionary;OED將 Brain Rot(腦腐)選為 2024 的年度詞彙,正是反映了生成式 AI 所帶來的隱憂。《牛津英語詞典》也指出,約在年底左右,slop 一詞的使用量迅速增加了 332%。

主因正是因為 AI Slop(AI 廚餘)的盛行,AI Slop 專指生成式 AI 產出的作品(文章、音樂、圖片、影音等),勾勒出當代的低品質數位內容,越來越常出現在各大社群媒體。

根據 AI 檢測公司 Originality AI 2024 年的分析,商業社群平台 LinkedIn 上超過 54% 的長篇英文貼文可能都是由 AI 生成。《WIRED》的報導也揭露,部落格平台 Medium 上有 47% 的文章,可能都不是由人類所撰寫。全球最大的影音素材網站 Adobe Stock 也遭到 AI 內容汙染,許多設計師抱怨,自己得要花兩倍以上的時間才能找到合適的圖片


數據耗盡的焦慮:合成數據近親繁殖


文章開篇提到馬斯克的觀察,他推估,人類世界的數據很有可能在 2026~2028 年間耗盡。馬斯克主張,解決數據短缺的「唯一方式」,就是利用由 AI 生成的合成數據(synthetic data)。不過,這種資料訓練的迴圈,形成了一條潛在的「自我消耗」路徑:

下一代的模型並非只從真實世界(real-world)收集資料,也同時將前一代模型所生成之合成資料納入訓練。

2023 年的一份聯合研究Self-Consuming Generative Models Go MAD提到,每次訓練中若缺乏足量且新鮮的真實資料(Fresh Real Data),模型生成的品質(quality)與多樣性(diversity)都會逐漸退化,最終將陷入所謂的模型自嗜(Model Autophagy Disorder, MAD)的狀態


本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據,Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源:該研究。

本研究的資料循環示意圖。Fixed Real Data 代表每次訓練保留原有的真實數據,Fresh Real Data 則是在每次訓練時都導入「新鮮」的真實數據。來源:該研究。


換句話說,到了人類數據用罄的那天,生成式 AI 每一次的演算,都是大量使用合成數據在進行近親繁殖。如同歷史上的貴族家庭,試圖藉由近親繁殖保留純種且優良的基因,只會增加不良隱性性狀的基因表現,導致後代子嗣的環境適應力衰退。


本研究將生成式模型的自我吞噬現象分為三種主要形態:

  • 完全合成迴圈(Fully Synthetic Loop)
  • 合成增強迴圈(Synthetic Augmentation Loop)
  • 新鮮資料迴圈(Fresh Data Loop)


每個迴圈的訓練方式差別在於每個世代(generation)在訓練新模型時加入多少新的真實資料,以及如何混合前代模型的合成資料。完全合成迴圈完全使用合成過的資料,合成增強迴圈次之,新鮮資料迴圈則完全使用真實世界的新鮮資料。


完全合成迴圈

在完全合成迴圈中,僅用合成數據訓練模型,不使用也不補充任何新鮮的真實樣本,再加上抽樣偏倚,就算可以得到好看或清晰的「單一模態」合成影像,長久來看仍是品質或多樣性的長期退化。

完全合成迴圈下的模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。

完全合成迴圈下的模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。


合成增強迴圈

合成增強迴圈的模式下,每個世代都會把前代模型的合成資料加進訓練的數據集,但同時保留原始的一批真實資料,但不增加、不更新。隨著模型接續演算,原始真實資料會慢慢被稀釋,合成資料的比例越來越大。

固定的一批真實資料可以延緩衰退,但無法從根本上阻止模型走向自我吞噬的境地。時間一久,合成資料仍舊會佔據主導地位,進而影響生成的品質。


合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。箭頭為自行加註。

合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。箭頭為自行加註。


唯獨新鮮數據的訓練迴圈可以避免模型崩潰,研究最後也主張,若要在自噬循環的每一代中,沒有足夠的新鮮真實數據,那麼未來生成的模型將會注定落入精確度、多樣性的損失。換句話說,模型訓練時應盡量引入新鮮的真實數據,用浮水印(Watermarking)標記使用過的資料,以確保模型效能。




無論是米勒遇到「自動化」政策而導致裁員、WikiProject AI Cleanup 面臨的錯誤條目汙染維基百科,或是《牛津英語辭典》年度選字所捕捉到的腦腐文化,三者都共享了一個關於技術的不爭事實:

AI 的光鮮亮麗,遠不及其所帶來的負面漩渦;並且隨著 AI 內容創作工具的普及,合成資料的風險也在不斷上升。

若每一代的模型都過度依賴前一代合成資料,無論是在圖像、語音,或是純文字等領域,只要缺乏充足且新鮮的真實資料,長遠來看,都會導致生成的內容品質與多樣性惡化。

未來的 AI 開發人員可能將會在「骯髒」的環境裡訓練模型,而一般的使用者只能在大染缸裡反芻 AI 排泄的廚餘。最終,累積的偏誤大到必須投入更多時間、精力才能修復。科技巨頭所允諾 AI 解放人力的幻夢,最終還是得交由人類親自收拾其殘局。








avatar-img
111會員
232內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
留言
avatar-img
留言分享你的想法!

































































社會人的哲學沉思 的其他內容
因為 Spotify 的推薦機制,當代歌曲的副歌都有往前的現象;甚至,現在歌曲的時長也正在縮短。
AI 的出現擊垮了人類何以為「人」的驕傲,我們對 AI 的恐懼反映了人類自身的存在危機。AI 在大量數據的訓練下產生了專屬機器的「暗知識」,而暗知識將會顛覆人類社會對科技的想像。
在賽博龐克的作品,經常描繪個體的意識可以被保留甚至被植入大腦,而在科幻作品中,記憶/意識則是角色區分「我是誰?」的重要判準。
賽博龐克作品的人們癡迷於人體改造,用大量的科技植入物增強人體特定器官的能力。在許多賽博龐克的影視作品裡,我們能看到這種技術被瘋狂的濫用,彷彿人類與生俱來的四肢隨時都能被冰冷的機械義肢替換/取代。
在廣告密布的世界,人們幾乎沒有自由,只能被接連不斷的廣告牽引著生活。構成賽博龐克的浮華世界,有兩個重要的關鍵要素:消費主義文化、社會權力控制。
“We are so bound by time, by its order.” — Arrival, 2016
因為 Spotify 的推薦機制,當代歌曲的副歌都有往前的現象;甚至,現在歌曲的時長也正在縮短。
AI 的出現擊垮了人類何以為「人」的驕傲,我們對 AI 的恐懼反映了人類自身的存在危機。AI 在大量數據的訓練下產生了專屬機器的「暗知識」,而暗知識將會顛覆人類社會對科技的想像。
在賽博龐克的作品,經常描繪個體的意識可以被保留甚至被植入大腦,而在科幻作品中,記憶/意識則是角色區分「我是誰?」的重要判準。
賽博龐克作品的人們癡迷於人體改造,用大量的科技植入物增強人體特定器官的能力。在許多賽博龐克的影視作品裡,我們能看到這種技術被瘋狂的濫用,彷彿人類與生俱來的四肢隨時都能被冰冷的機械義肢替換/取代。
在廣告密布的世界,人們幾乎沒有自由,只能被接連不斷的廣告牽引著生活。構成賽博龐克的浮華世界,有兩個重要的關鍵要素:消費主義文化、社會權力控制。
“We are so bound by time, by its order.” — Arrival, 2016
你可能也想看
Google News 追蹤
Thumbnail
抒發一下 在這個數位時代,我越來越感受到一種壓力,這種壓力來自於社交媒體上的演算法和流量競爭。
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
在流量為王的網路時代,有多少網路工作者被瀏覽數及追蹤數等數據所掌控? 又有多少人會以網路流量為評斷依據,判斷究竟一個人說出口的話「有沒有價值」? 在面對一項人事物時,不少人都容易簡單粗略地以「外在價值」來做評斷, 但價值其實不僅僅存在於外在、可量化的,更多的是隱藏在內、難以量化的深度價值。
Thumbnail
資訊爆炸的時代給人帶來了巨大的衝擊。無論是數位化進程還是社交媒體,資訊過載都對人們的生活產生了深遠的影響。這對年輕人來說尤為重要,他們面臨著價值觀變化、迷失方向和享樂主義等挑戰。為了應對這些問題,人們需要學會信息篩選、培養批判性思維、保持專注和平衡生活。
Thumbnail
隨著數位科技的迅猛發展,資訊爆炸已成為當今社會的一大現象。從網際網路到社交媒體,從手機應用到網路搜索,我們每天接收到的資訊量遠超過過去任何時代。 這篇文章探討了資訊爆炸對於多元性與挑戰、專注力與分心問題以及心理健康和壓力的影響,並提出了相應的應對策略。
Thumbnail
隨著數據資產化進程的加速,數據不僅成為企業的重要資源,也逐漸影響到我們的日常生活。了解數據資產化如何改變我們的生活,以及我們如何利用這個趨勢進行套利,對每個人來說都是有價值的。
Thumbnail
前陣子,看到個貼文,大意是說, 簡體中文網路資訊正在「斷崖式銳減」。 連馬雲這樣的人物,2005年之前的相關資料也都沒了。 他說, 原因當然是跟政治審查有關, 但另一個理由是,很多提供網路服務的公司都消失了。 或許這樣說:新形態的影音服務出現, 從前的文字資訊的服務,不敵競爭,
上次 我們聊到了近年社群媒體的改變,及全球平均上網的時數 今天我們則要來談談 「數位段捨離」「Digital Detox 數位排毒」   ​ (圖片出處:https://themillennialbuzz.com/online-overload/)   科技發達的現代,我們的生活似乎漸漸
社群,臉書,群組,現代人無法割捨使用網路,現實世界許多爆表壓力和傷痛,包袱,在個體資料的保護機制和虛擬世界中,心靈最脆弱或真實面得已盡情釋放;即時對話反饋和虛擬人設,初期的心裡缺損角落滿足感十足後,方便性和個人化,現代人沉溺網路成為鍵盤手,幾乎是日常與不可逃避的事了。 然而心存善良,沒有評估文字風
Thumbnail
網路的大數據真的蠻可怕也蠻神奇的。 常常不小心點了什麼廣告,之後就會跑一堆類似的出來,或是看了什麼影片,也會跑一堆同性質的影片出來。 去年底到今年初很常看某些韓團的影片,刷一排幾乎都是,可以一直看一直看也是蠻不錯的,有歌曲、舞蹈,或是韓綜,從不太熟刷到變成很熟的路人粉。 不過除了大數據刷出
Thumbnail
抒發一下 在這個數位時代,我越來越感受到一種壓力,這種壓力來自於社交媒體上的演算法和流量競爭。
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
在流量為王的網路時代,有多少網路工作者被瀏覽數及追蹤數等數據所掌控? 又有多少人會以網路流量為評斷依據,判斷究竟一個人說出口的話「有沒有價值」? 在面對一項人事物時,不少人都容易簡單粗略地以「外在價值」來做評斷, 但價值其實不僅僅存在於外在、可量化的,更多的是隱藏在內、難以量化的深度價值。
Thumbnail
資訊爆炸的時代給人帶來了巨大的衝擊。無論是數位化進程還是社交媒體,資訊過載都對人們的生活產生了深遠的影響。這對年輕人來說尤為重要,他們面臨著價值觀變化、迷失方向和享樂主義等挑戰。為了應對這些問題,人們需要學會信息篩選、培養批判性思維、保持專注和平衡生活。
Thumbnail
隨著數位科技的迅猛發展,資訊爆炸已成為當今社會的一大現象。從網際網路到社交媒體,從手機應用到網路搜索,我們每天接收到的資訊量遠超過過去任何時代。 這篇文章探討了資訊爆炸對於多元性與挑戰、專注力與分心問題以及心理健康和壓力的影響,並提出了相應的應對策略。
Thumbnail
隨著數據資產化進程的加速,數據不僅成為企業的重要資源,也逐漸影響到我們的日常生活。了解數據資產化如何改變我們的生活,以及我們如何利用這個趨勢進行套利,對每個人來說都是有價值的。
Thumbnail
前陣子,看到個貼文,大意是說, 簡體中文網路資訊正在「斷崖式銳減」。 連馬雲這樣的人物,2005年之前的相關資料也都沒了。 他說, 原因當然是跟政治審查有關, 但另一個理由是,很多提供網路服務的公司都消失了。 或許這樣說:新形態的影音服務出現, 從前的文字資訊的服務,不敵競爭,
上次 我們聊到了近年社群媒體的改變,及全球平均上網的時數 今天我們則要來談談 「數位段捨離」「Digital Detox 數位排毒」   ​ (圖片出處:https://themillennialbuzz.com/online-overload/)   科技發達的現代,我們的生活似乎漸漸
社群,臉書,群組,現代人無法割捨使用網路,現實世界許多爆表壓力和傷痛,包袱,在個體資料的保護機制和虛擬世界中,心靈最脆弱或真實面得已盡情釋放;即時對話反饋和虛擬人設,初期的心裡缺損角落滿足感十足後,方便性和個人化,現代人沉溺網路成為鍵盤手,幾乎是日常與不可逃避的事了。 然而心存善良,沒有評估文字風
Thumbnail
網路的大數據真的蠻可怕也蠻神奇的。 常常不小心點了什麼廣告,之後就會跑一堆類似的出來,或是看了什麼影片,也會跑一堆同性質的影片出來。 去年底到今年初很常看某些韓團的影片,刷一排幾乎都是,可以一直看一直看也是蠻不錯的,有歌曲、舞蹈,或是韓綜,從不太熟刷到變成很熟的路人粉。 不過除了大數據刷出