AI垃圾(AI Slop)正在汙染網路世界

更新於 發佈於 閱讀時間約 5 分鐘

未來網路世界中真實資料的占比可能會因為大型語言模型(LLM)的出現而逐漸減少。隨著LLM生成的內容在網路上變得越來越普遍,未來在訓練LLM上會變得更加困難,資料來源無從查證,因為AI生成內容會變得無所不在。隨著語言模型技術的進步,生成的內容將顯得更加自然和有說服力,這使得其難以與原始的、真實的內容區分開來。現在許多人現在會使用ChatGPT幫自己潤稿或是換句話說,但是無論是ChatGPT或是其它的LLM都有其所屬的敘述風格,因此,即便是人類寫的內容給LLM進行修改,仍然會被LLM加入一些LLM的風格、用詞以及表達方式。

過去LLM訓練資料來自於哪裡?

1. 網頁資料:網頁爬蟲抓取的文本資料,包括部落格、新聞文章、論壇、維基百科等。

2. 書籍和學術文獻:包括公開出版的書籍、學術期刊、會議論文等。

3. 開放資料集

4. 社群媒體和論壇:包括 Twitter、Reddit等社交媒體平台上的公開貼文。

5. 新聞和報導:訓練資料中通常會包含大量的新聞文章、報導、專題。

6. 對話資料

7. 文件和技術手冊:包括各種軟體工具、程式語言等文件。


從訓練資料來源中可以發現,大多數的資料皆來自網路中,其中不少都是平台使用者所發布的,然而現在越來越多人在生活當中習慣使用LLM來協助自己,這代表LLM在網路世界上的影響力越來越大,另外過往內容農場,可能是複製貼上,但是現在出現了LLM,不再侷限於複製貼上,而是貼給LLM並下指令告訴它換句話說,讓大家越來越難識別內容為AI生成或人類撰寫,在未來大型語言模型的訓練資料來源仍然依靠網路世界的資料時,這些資料不再是純粹的人類生成的資料,然而這些資料是難以過濾的,即便進行人工審核,也無法確保資料完全真實。


大型語言模型可能越來越笨?

大型語言生成的內容可能存在錯誤,儘管這些錯誤占比很少,但是每一次訓練模型都包含這些錯誤的資料,可能在多次訓練之後放大這些錯誤。當大型語言模型的錯誤不斷累積並被廣泛應用於各種產業時,這些錯誤可能會擴散到社會各個層面,成為資訊污染的一部分。用戶可能無法輕易識別錯誤的內容,並且在不知情的情況下接受錯誤的資訊,這會對社會和文化造成長期影響。


數位淨灘

「Medium 正在加強防範垃圾訊息和欺詐行為的努力,例如透過暫停與欺詐活動相關的帳號,來保護平台的內容品質。」出處:Buster Benson,The Medium Blog,2024 年 3 月 22 日(原文連結:https://medium.com

Medium 平台近期加強了對垃圾內容和欺詐行為的管控,目標是維護高品質的內容社區。以下是主要行動與方針摘要:

1.帳戶審查與處理

  • 信任與安全團隊對涉嫌欺詐活動的帳戶進行了審查,約 1.7% 的活躍合作計劃作者帳戶因違規行為被暫停。
  • 對於部分爭議帳戶,經重新檢視後進行了恢復,並加強與用戶的溝通。

2.打擊不當行為

Medium 將以下行為視為主要違規情形,並採取嚴厲措施:

  • 垃圾內容、冒名、抄襲及釣魚詐騙。
  • 使用多個會員帳戶虛假提升收入。
  • 未披露或付費牆內的 AI 生成內容。
  • 協調性非真實互動(如低價值重複互動)。

3.政策調整與透明性

  • Medium 強調不容許惡意或不真實的內容行為,並禁止 AI 生成內容參與合作計劃,但允許在公開文章中使用並標明。
  • 減少欺詐帳戶後,重新分配資金予誠實的作者。


如何面對AI垃圾?

不管在過去或未來媒體識讀的能力都很重要,過往內容農場可以操控輿論、帶風向,而現在可以想像成人人都可以經營內容農場,因此需多加自主思考,避免自己在潛移默化中受到影響。

  • 避免盲目轉發:在分享內容前,思考其真實性與價值,避免成為不實訊息的傳播者。
  • 關注多元觀點:接觸不同的意見和分析,避免只接收符合自己立場的資訊,減少認知偏誤的影響。
  • 檢查語氣與細節:AI 生成的文章通常用詞流暢,但缺乏深入洞察或原創觀點,細節處可能會有邏輯不連貫的情況。
  • 驗證資訊:對於重大或爭議性訊息,多參考其他獨立來源,確認內容真實性。

以上是我們可以做到的事情來面對AI垃圾。

除此之外,網站平台也應該設置一些機制來避免大量無意義文章氾濫,例如過濾短時間內帳號發出大量內容類似的文章、無意義的圖像,或是以人工審核內容的方式,並且發文者必須備註內容是否包含AI生成。

留言
avatar-img
留言分享你的想法!
avatar-img
Aaron
1會員
18內容數
Aaron的其他內容
2025/03/17
(一)馬斯克的政治立場對特斯拉在北美與歐洲的銷售影響 馬斯克(Elon Musk)近年來在政治領域的高調表態,對特斯拉在北美與歐洲市場的銷售影響愈發明顯。特別是在北美,馬斯克與川普(Donald Trump)之間的關係,可能帶來監管上的潛在優勢,例如自動駕駛法規的鬆綁或降低對電動車補貼的依賴。然而
Thumbnail
2025/03/17
(一)馬斯克的政治立場對特斯拉在北美與歐洲的銷售影響 馬斯克(Elon Musk)近年來在政治領域的高調表態,對特斯拉在北美與歐洲市場的銷售影響愈發明顯。特別是在北美,馬斯克與川普(Donald Trump)之間的關係,可能帶來監管上的潛在優勢,例如自動駕駛法規的鬆綁或降低對電動車補貼的依賴。然而
Thumbnail
2025/02/10
川普的"對等關稅"政策引發全球關注,本文分析其核心概念、各國反應、經濟影響及投資人應對策略,涵蓋歐盟、印度、加拿大等國家的案例,並探討對全球市場的衝擊,例如市場波動、通膨風險、貨幣政策及企業供應鏈調整等。
Thumbnail
2025/02/10
川普的"對等關稅"政策引發全球關注,本文分析其核心概念、各國反應、經濟影響及投資人應對策略,涵蓋歐盟、印度、加拿大等國家的案例,並探討對全球市場的衝擊,例如市場波動、通膨風險、貨幣政策及企業供應鏈調整等。
Thumbnail
2025/02/02
在加密貨幣領域,RWA賽道正迅速成為投資者熱切關注的焦點。RWA 指的是將如房地產、藝術品、債券等實體世界資產,通過區塊鏈技術進行代幣化,並在去中心化金融(DeFi)生態系統中流通和交易。這一趨勢的產生,主要是因為區塊鏈技術所帶來的高透明度和效率,為傳統金融市場注入了前所未有的流動性與普及化潛力。
Thumbnail
2025/02/02
在加密貨幣領域,RWA賽道正迅速成為投資者熱切關注的焦點。RWA 指的是將如房地產、藝術品、債券等實體世界資產,通過區塊鏈技術進行代幣化,並在去中心化金融(DeFi)生態系統中流通和交易。這一趨勢的產生,主要是因為區塊鏈技術所帶來的高透明度和效率,為傳統金融市場注入了前所未有的流動性與普及化潛力。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
為了避免GPT模型對人類社會造成危害,要有一個指標來評量個語言模型的資訊透明度。當有關於模型的公開訊息越多,無論是訓練資料的取得來源與資料搜集方法,還是模型細節的接露,與產生結果的限制用途與目標客群等等,都是這篇論文關心且要衡量的指標,藉由評分防止發行人工智慧的大科技公司可能造成的社會危害
Thumbnail
為了避免GPT模型對人類社會造成危害,要有一個指標來評量個語言模型的資訊透明度。當有關於模型的公開訊息越多,無論是訓練資料的取得來源與資料搜集方法,還是模型細節的接露,與產生結果的限制用途與目標客群等等,都是這篇論文關心且要衡量的指標,藉由評分防止發行人工智慧的大科技公司可能造成的社會危害
Thumbnail
2016年,安全公司Imperva發佈了一份關於機器人流量的報告,發現機器人占網路流量的52%,這是它首次超過人類流量。這份報告被用作關於網路已死理論的報告的證據。
Thumbnail
2016年,安全公司Imperva發佈了一份關於機器人流量的報告,發現機器人占網路流量的52%,這是它首次超過人類流量。這份報告被用作關於網路已死理論的報告的證據。
Thumbnail
其實我之前就嘗試探討這個問題,只是一直沒有結論,所以沒有在AI將促進認證訊息管道的發展 中提出來。資訊認證中心,該由政府來做?還是私人機構來做?如果政府來做,政府的效率有設跟沒有也差不多;但是私人來做,也很難真正做到立場中立。後來剛好發現NewsNotFound這個新聞網站,發現這似乎是一個很好的方
Thumbnail
其實我之前就嘗試探討這個問題,只是一直沒有結論,所以沒有在AI將促進認證訊息管道的發展 中提出來。資訊認證中心,該由政府來做?還是私人機構來做?如果政府來做,政府的效率有設跟沒有也差不多;但是私人來做,也很難真正做到立場中立。後來剛好發現NewsNotFound這個新聞網站,發現這似乎是一個很好的方
Thumbnail
利用AI工具發想大綱、整理思緒、自動配圖、甚至產出投影片,一時之間ChatGPT、Tome、Copilot紛紛成為熱話,網上有大量如何施咒語自動預備簡報的教學……那麼,是否從此不再需要學簡報呢?下文一起來採討在自動化預備以後,三個值得你把省下來的時間投資的學習方向,還會預測一下設計市場的潛在變化。
Thumbnail
利用AI工具發想大綱、整理思緒、自動配圖、甚至產出投影片,一時之間ChatGPT、Tome、Copilot紛紛成為熱話,網上有大量如何施咒語自動預備簡報的教學……那麼,是否從此不再需要學簡報呢?下文一起來採討在自動化預備以後,三個值得你把省下來的時間投資的學習方向,還會預測一下設計市場的潛在變化。
Thumbnail
全球面對AI時代的存在與發展,對於法制層面及環境上的需求益增,尤其AI在智慧財產法制上的爭議討論度愈來愈熱烈。然而,台灣當前似乎仍欠缺前瞻性的遠見來面對一波波AI的浪潮,我們冀望能透過新的法規範思維來建構適切的實務運作環境,特別是AI的科技法律面分析(政府作為或規範、業界應注意事項或管理方向),需要
Thumbnail
全球面對AI時代的存在與發展,對於法制層面及環境上的需求益增,尤其AI在智慧財產法制上的爭議討論度愈來愈熱烈。然而,台灣當前似乎仍欠缺前瞻性的遠見來面對一波波AI的浪潮,我們冀望能透過新的法規範思維來建構適切的實務運作環境,特別是AI的科技法律面分析(政府作為或規範、業界應注意事項或管理方向),需要
Thumbnail
臉書(Facebook)、推特(Twitter)、抖音(TikTok)、IG(Instagram)等社交媒體都面臨一個同樣的問題,那就是不當內容的監控,尤其是對於影片的內容。
Thumbnail
臉書(Facebook)、推特(Twitter)、抖音(TikTok)、IG(Instagram)等社交媒體都面臨一個同樣的問題,那就是不當內容的監控,尤其是對於影片的內容。
Thumbnail
這篇文章能帶你的收穫將超乎你的想像,除了可以避免你或你所在的公司浪費無數時間、金錢在一些沒有意義的事情上面虛耗(譬如調參數、重新訓練,採用錯誤的機器學習方法或架構),也可以讓你或你的公司在獲得相關知識之後,能更正確的理解當前的環境與制定出更好的市場戰略。LSTM技術的致命缺陷也在此顯現出來!
Thumbnail
這篇文章能帶你的收穫將超乎你的想像,除了可以避免你或你所在的公司浪費無數時間、金錢在一些沒有意義的事情上面虛耗(譬如調參數、重新訓練,採用錯誤的機器學習方法或架構),也可以讓你或你的公司在獲得相關知識之後,能更正確的理解當前的環境與制定出更好的市場戰略。LSTM技術的致命缺陷也在此顯現出來!
Thumbnail
如果要用一句話來說的話,那應該是『技術有限,價值無限』
Thumbnail
如果要用一句話來說的話,那應該是『技術有限,價值無限』
Thumbnail
AI機器學習從訓練資料數據集Dataset開始,至AI產出的output,所有過程舉凡:資料數據集的重製、中間步驟的重製、模型的非文義性重製,皆有重製行為,是否構成侵權?
Thumbnail
AI機器學習從訓練資料數據集Dataset開始,至AI產出的output,所有過程舉凡:資料數據集的重製、中間步驟的重製、模型的非文義性重製,皆有重製行為,是否構成侵權?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News