更新於 2025/01/07閱讀時間約 5 分鐘

AI垃圾(AI Slop)正在汙染網路世界

未來網路世界中真實資料的占比可能會因為大型語言模型(LLM)的出現而逐漸減少。隨著LLM生成的內容在網路上變得越來越普遍,未來在訓練LLM上會變得更加困難,資料來源無從查證,因為AI生成內容會變得無所不在。隨著語言模型技術的進步,生成的內容將顯得更加自然和有說服力,這使得其難以與原始的、真實的內容區分開來。現在許多人現在會使用ChatGPT幫自己潤稿或是換句話說,但是無論是ChatGPT或是其它的LLM都有其所屬的敘述風格,因此,即便是人類寫的內容給LLM進行修改,仍然會被LLM加入一些LLM的風格、用詞以及表達方式。

過去LLM訓練資料來自於哪裡?

1. 網頁資料:網頁爬蟲抓取的文本資料,包括部落格、新聞文章、論壇、維基百科等。

2. 書籍和學術文獻:包括公開出版的書籍、學術期刊、會議論文等。

3. 開放資料集

4. 社群媒體和論壇:包括 Twitter、Reddit等社交媒體平台上的公開貼文。

5. 新聞和報導:訓練資料中通常會包含大量的新聞文章、報導、專題。

6. 對話資料

7. 文件和技術手冊:包括各種軟體工具、程式語言等文件。


從訓練資料來源中可以發現,大多數的資料皆來自網路中,其中不少都是平台使用者所發布的,然而現在越來越多人在生活當中習慣使用LLM來協助自己,這代表LLM在網路世界上的影響力越來越大,另外過往內容農場,可能是複製貼上,但是現在出現了LLM,不再侷限於複製貼上,而是貼給LLM並下指令告訴它換句話說,讓大家越來越難識別內容為AI生成或人類撰寫,在未來大型語言模型的訓練資料來源仍然依靠網路世界的資料時,這些資料不再是純粹的人類生成的資料,然而這些資料是難以過濾的,即便進行人工審核,也無法確保資料完全真實。


大型語言模型可能越來越笨?

大型語言生成的內容可能存在錯誤,儘管這些錯誤占比很少,但是每一次訓練模型都包含這些錯誤的資料,可能在多次訓練之後放大這些錯誤。當大型語言模型的錯誤不斷累積並被廣泛應用於各種產業時,這些錯誤可能會擴散到社會各個層面,成為資訊污染的一部分。用戶可能無法輕易識別錯誤的內容,並且在不知情的情況下接受錯誤的資訊,這會對社會和文化造成長期影響。


數位淨灘

「Medium 正在加強防範垃圾訊息和欺詐行為的努力,例如透過暫停與欺詐活動相關的帳號,來保護平台的內容品質。」出處:Buster Benson,The Medium Blog,2024 年 3 月 22 日(原文連結:https://medium.com

Medium 平台近期加強了對垃圾內容和欺詐行為的管控,目標是維護高品質的內容社區。以下是主要行動與方針摘要:

1.帳戶審查與處理

  • 信任與安全團隊對涉嫌欺詐活動的帳戶進行了審查,約 1.7% 的活躍合作計劃作者帳戶因違規行為被暫停。
  • 對於部分爭議帳戶,經重新檢視後進行了恢復,並加強與用戶的溝通。

2.打擊不當行為

Medium 將以下行為視為主要違規情形,並採取嚴厲措施:

  • 垃圾內容、冒名、抄襲及釣魚詐騙。
  • 使用多個會員帳戶虛假提升收入。
  • 未披露或付費牆內的 AI 生成內容。
  • 協調性非真實互動(如低價值重複互動)。

3.政策調整與透明性

  • Medium 強調不容許惡意或不真實的內容行為,並禁止 AI 生成內容參與合作計劃,但允許在公開文章中使用並標明。
  • 減少欺詐帳戶後,重新分配資金予誠實的作者。


如何面對AI垃圾?

不管在過去或未來媒體識讀的能力都很重要,過往內容農場可以操控輿論、帶風向,而現在可以想像成人人都可以經營內容農場,因此需多加自主思考,避免自己在潛移默化中受到影響。

  • 避免盲目轉發:在分享內容前,思考其真實性與價值,避免成為不實訊息的傳播者。
  • 關注多元觀點:接觸不同的意見和分析,避免只接收符合自己立場的資訊,減少認知偏誤的影響。
  • 檢查語氣與細節:AI 生成的文章通常用詞流暢,但缺乏深入洞察或原創觀點,細節處可能會有邏輯不連貫的情況。
  • 驗證資訊:對於重大或爭議性訊息,多參考其他獨立來源,確認內容真實性。

以上是我們可以做到的事情來面對AI垃圾。

除此之外,網站平台也應該設置一些機制來避免大量無意義文章氾濫,例如過濾短時間內帳號發出大量內容類似的文章、無意義的圖像,或是以人工審核內容的方式,並且發文者必須備註內容是否包含AI生成。

分享至
成為作者繼續創作的動力吧!
© 2025 vocus All rights reserved.