未來網路世界中真實資料的占比可能會因為大型語言模型(LLM)的出現而逐漸減少。隨著LLM生成的內容在網路上變得越來越普遍,未來在訓練LLM上會變得更加困難,資料來源無從查證,因為AI生成內容會變得無所不在。隨著語言模型技術的進步,生成的內容將顯得更加自然和有說服力,這使得其難以與原始的、真實的內容區分開來。現在許多人現在會使用ChatGPT幫自己潤稿或是換句話說,但是無論是ChatGPT或是其它的LLM都有其所屬的敘述風格,因此,即便是人類寫的內容給LLM進行修改,仍然會被LLM加入一些LLM的風格、用詞以及表達方式。
從訓練資料來源中可以發現,大多數的資料皆來自網路中,其中不少都是平台使用者所發布的,然而現在越來越多人在生活當中習慣使用LLM來協助自己,這代表LLM在網路世界上的影響力越來越大,另外過往內容農場,可能是複製貼上,但是現在出現了LLM,不再侷限於複製貼上,而是貼給LLM並下指令告訴它換句話說,讓大家越來越難識別內容為AI生成或人類撰寫,在未來大型語言模型的訓練資料來源仍然依靠網路世界的資料時,這些資料不再是純粹的人類生成的資料,然而這些資料是難以過濾的,即便進行人工審核,也無法確保資料完全真實。
大型語言生成的內容可能存在錯誤,儘管這些錯誤占比很少,但是每一次訓練模型都包含這些錯誤的資料,可能在多次訓練之後放大這些錯誤。當大型語言模型的錯誤不斷累積並被廣泛應用於各種產業時,這些錯誤可能會擴散到社會各個層面,成為資訊污染的一部分。用戶可能無法輕易識別錯誤的內容,並且在不知情的情況下接受錯誤的資訊,這會對社會和文化造成長期影響。
「Medium 正在加強防範垃圾訊息和欺詐行為的努力,例如透過暫停與欺詐活動相關的帳號,來保護平台的內容品質。」出處:Buster Benson,The Medium Blog,2024 年 3 月 22 日(原文連結:https://medium.com)
Medium 平台近期加強了對垃圾內容和欺詐行為的管控,目標是維護高品質的內容社區。以下是主要行動與方針摘要:
Medium 將以下行為視為主要違規情形,並採取嚴厲措施:
不管在過去或未來媒體識讀的能力都很重要,過往內容農場可以操控輿論、帶風向,而現在可以想像成人人都可以經營內容農場,因此需多加自主思考,避免自己在潛移默化中受到影響。
以上是我們可以做到的事情來面對AI垃圾。
除此之外,網站平台也應該設置一些機制來避免大量無意義文章氾濫,例如過濾短時間內帳號發出大量內容類似的文章、無意義的圖像,或是以人工審核內容的方式,並且發文者必須備註內容是否包含AI生成。