〈模糊的,與愈加模糊的AI生成內容〉2025-10-29
昨天在社群上看到一篇有趣的文章,作者用哈布斯堡王朝(Habsburg dynasty)的近親通婚,比喻AI大量使用AI合成資料作為訓練資料可能造成的毀滅性後果。
這篇文章有著吸引眼球的譬喻,內容也具有啟發性和發人深省,但近親通婚可能的疾病問題和AI大量使用合成資料畢竟不是相同的科學原理,我想從另一個角度,重新聊聊大量使用合成資料的問題。
有損壓縮與難以辨識的錯誤
2023年初,令人敬佩的科幻作家姜峯楠(Ted Chiang)在《紐約客》上發表了一篇--關於大型語言生成模型--極具洞見的文章《ChatGPT 是網路的一張模糊 JPEG 圖像》(ChatGPT Is a Blurry JPEG of the Web)。
這篇文章從Xerox影印機在2014某次更新時修復掉的一個漏洞說起。2013年,一間德國建築公司的工人注意到他們影印機上出現的一個怪問題:當時,他們打算影印一間房子的平面圖。在原始版本的平面圖中,房子的三個房間都是長方形的,面積分別為14.13、21.11和17.42平方公尺。然而,在影印出來的文件裡,三個房間都被標記為14.13平方公尺。
對於早期的物理靜電印刷來說,這件詭異的事情是不可能發生的。然而,現代的Xerox影印機,已經開始使用數位掃描,機器會對掃描的文件進行編碼、壓縮,之後再重新解碼、影印出來。
為了節省空間,影印機「聰明地」將那些標示房間面積的標籤判讀為足夠相似,所以它只儲存了其中一個資料「14.13」,並在列印平面圖的那一刻,對所有房間重複使用這個它儲存起來的標籤。
這個漏洞導致了一件嚴重的問題:壓縮帶來的失真,有時無法被立即地辨認出來。如果影印機印出的是一張模糊的文件,每個人都可以立即看出它不是原件的準確複製品。但這個漏洞造成的結果是:文件看起來很清楚,機器生成出來的數字完全是可讀的。這使得文件看起來很準確,即便它實際上完全錯誤。
在姜峯楠的比喻中,他希望我們思考的問題是,語言模型幫我們把知識「壓縮」成那些AI文章時,它是否讓一些重要的東西在過程中損失了?而且更糟糕的問題是,我們很可能無法即時辨識出來,我們面前的這些內容早已是如那張「平面圖影本」一樣的非真相。
反覆自我消磨,直到王朝終結
那篇網路文章談論的問題核心與此相關。如果AI會在每一次資料生成的過程中,都做一次消除多樣性的「平滑修飾」。那麼,當AI開始大量使用AI生成內容當作訓練資料,它生成的內容就會愈加平庸且無聊。
所有如「房間大小」這樣可能極為重要的細微差異,都會在一次又一次的反芻中被磨平。獨特的觀點、冷門的知識、有特色的寫作風格……也都會在「反覆修飾」之後,變得主流、無害、對誰都理所當然。
同時,其中任何一次重大錯誤,都會在過程中如謠言那樣逐漸放大、定型。且隨著這些AI內容被大量生產,在一個冷門主題上,錯誤內容可能會劣幣驅逐良幣,最終讓事實被網路遺忘,幻覺成為了AI搜尋引擎中唯一能夠被找到的「真相」。
這些AI自我參照可能發生的問題,就像哈布斯堡家族成員血液中,那些有害的隱性基因,在不斷自我放大的過程中,無可避免地造成悲劇性的後果。
不過,就算你不認為語言模型的進程會走向那種毀滅性的極端情況,現在仍是一個好時間,讓我們重新去探問AI生成內容的應用(或者說「透過AI認識世界」)對當前人類的益處到底是什麼?
在兩年多前那篇文章的最後,姜峯楠問了這樣一個問題:
當我們能夠取得關於世界的「真實原件」時,像AI生成內容這樣,總是讓部分內容一次又一次遺失、讓我們所見所得變得模糊的東西,對我們有多大的用處呢?
延伸閱讀:
〈「去人類化」工具不會讓世界變得更美好:談姜峯楠〈為什麼人工智慧不會創造藝術〉〉
〈胡塞爾和柏拉圖會怎麼用AI?--AI輔助寫作與「自己的作品」〉
〈AI幻覺的成因與人類社會早就存在的「幻覺文化」〉
〈無品味的AI與如AI般空洞的人〉
〈Being-In-the-VVorld〉
















