AI爬蟲大軍侵襲!網站癱瘓危機Invasion de bots IA : sites surchargés

更新於 發佈於 閱讀時間約 6 分鐘


為了滿足演算法對資料的需求,AI產業正以前所未有的規模掃描、擷取網路上的開放內容。這股「數據掠奪潮」不僅對公共知識平台造成沉重負擔,也引發網路運作效率與資源分配的危機。

為了滿足演算法對資料的需求,AI產業正以前所未有的規模掃描、擷取網路上的開放內容。這股「數據掠奪潮」不僅對公共知識平台造成沉重負擔,也引發網路運作效率與資源分配的危機。


今年4月1日,維基媒體基金會(Wikimedia Foundation)揭露,AI產業已嚴重干擾其網站的正常運作。該基金會表示自2024年1月以來,由於OpenAI、Meta、Anthropic等企業1派出網路爬蟲2蒐集維基百科(Wikipedia)的文本與維基共享資源(WikiCommons)上1億4400萬個多媒體檔案,導致多媒體內容的下載流量3增加了50%。

 

倫敦國王學院(King’s College London)計算機科學教授伊蓮娜·辛珀爾(Elena Simperl)說明:「維基百科基金會在全球擁有自己的資料中心,不依賴第三方服務供應商4,並維護自己的網路基礎設施,目的是讓用戶能以低延遲方式5存取內容。」儘管這些內容是免費的,但它們仍需持續的技術維護與更新,包括伺服器管理、能源,以及支付技術團隊的薪資,以確保基礎架構的正常運行與安全。

 

在有重大新聞事件、流量激增時,維基百科網站可靠性工程(SRE)團隊會將優先內容保存在快取記憶體6,並根據使用者所在區域來優化伺服器連線。但這些網路爬蟲並無其他目的,只是為了提取7資料,它們會自動在網站上移動,透過連結跳轉來造訪盡可能多的頁面,為網頁帶來龐大且不規則的流量,導致網路不穩定,並帶來沉重的財務負擔。

 

許多網路使用者都提出類似經驗,尤其是開源社群,它們通常難以承擔維護網站的財務壓力。Mozilla的工程師丹尼斯·舒伯特(Dennis Schubert)於2024年12月指出,其伺服器Diaspora上70%的請求來自網路爬蟲,僅OpenAI的爬蟲就佔了24.6%。他表示這根本就是對整個網路的阻斷服務攻擊8


2025年3月,程式設計師德魯・德沃特(Drew DeVault)在一篇部落格文章中無奈地提到他的開發平台SourceHut每週出現數十次小型當機。3月19日,開源社群KDE在GitLab平台上曾因中國科技巨頭阿里巴巴的一個網路爬蟲導致整體無法存取。

 

為了減緩衝擊,維基媒體基金會提出一項替代方案:在Kaggle平台上提供一個專為AI訓練設計的維基百科資料集(含英文與法文版本),總資料量達113.58 GB。目的在於吸引爬蟲去下載該資料集,而不是直接抓取網站內容。

 

其他的因應措施則更為激進。例如全面封鎖所有機器人,但這可能會對整體網路產生不良影響;或者要求連線者提供「工作量證明」的驗證機制,以此辨別合法使用者與濫用行為,不過這樣可能會拖慢正常使用者的連線速度。

 

一位程式設計師則借鑑了反垃圾郵件(anti-spam)的手法:設計誘餌頁面,吸引爬蟲前來。這些頁面充斥著無意義的假內容9,且不提供任何超連結,使得爬蟲短時間內無法脫身。提供雲端服務的公司Cloudflare也有類似但較溫和的解決方案,稱為「AI迷宮」(AI Labyrinth),頁面本身是由AI生成的,雖無錯誤,但因與真正欲保護的網站內容無關而毫無用處。爬蟲會在這些頁面上浪費時間與資源,而真正的用戶與合法爬蟲則不會被導向這些頁面。

 

網路上的開放內容是訓練模型的重要資源。然而,大規模且無差別的資料擷取行為,已對網站的基礎設施與營運造成實質壓力。在技術進步與公共利益之間,如何取得合理平衡,已成為未來網路治理中不可忽視的議題。

 




Lexique:

1.   …… et consorts:同夥,⋯⋯等人,⋯⋯及其他人。

2.   Un Robot d’exploration du Web:網路爬蟲,也可直接使用英文web crawler

3.   La bande passante:頻寬,指一段時間內,網路連線所能傳輸的最大資料量。頻寬如被爬蟲大量下載會導致速度變慢、延遲增加,甚至網路中斷。

4.   Un prestataire tiers: 第三方服務供應商。prestataire (n.m.) 提供補助者。Tiers (n.m./ adj.) 第三者,三分之一。

5.   Une faible latence:低延遲,指網路用戶能快速獲得回應與內容顯示,不需要等太久。Latence (n.f.) 潛在,潛伏,在這指從發出一個請求(例如打開網頁、點擊連結)到伺服器回應的這段時間。

6.   Laisser des contenus prioritaires en cache:將重要內容儲存在快取中以加速載入。

[1]  Des contenus prioritaires:優先內容,指在特定時刻最常被查閱、最重要或流量最大的頁面,例如:重大新聞條目、熱門人物介紹或災難事件的條目。

[2]  En cache:進入快取,指內容會被提前儲存在伺服器的快取系統裡,當大量使用者來訪時,不需要每次都重新生成網頁,而是直接送出快取版本,大幅減少伺服器負擔,加快載入速度。

7.   Extraire:(v.t.) 提出,提煉,擷取。

8.   Une attaque par déni de service: 阻斷服務攻擊,一種透過大量請求使伺服器資源耗盡的攻擊手法。

9.   Un charabia:(n.m.) 難懂的、莫名其妙的話。



本文參考:

Arnaud Devillard, « Le Web assiégé par les robots de l’IA », in Sciences et Avenir N˚ 941-942, Juillet-Août 2025, pp.80-81

留言
avatar-img
留言分享你的想法!
avatar-img
Ad Astra的沙龍
4會員
76內容數
這個平台提供關於法國時事、心理學、科學、歷史、文化、藝術和哲學等領域的文章,文章內會介紹該領域的法文詞彙和使用到的文法,希望分享知識的同時,可以幫助對法文有興趣者學習法文。
Ad Astra的沙龍的其他內容
2025/07/24
歐洲與亞洲分處廣袤大陸的兩端,兩者間的交流極為緩慢。在16世紀前,歐洲對亞洲的認知主要來自於這片遙遠土地的傳說與故事,其中最著名的故事來自13世紀的《馬可·波羅遊記》。威尼斯商人之子馬可波羅為蒙古人效力並記錄旅途見聞,成為歐洲了解亞洲的重要來源,該書在當時被視為權威之作。
Thumbnail
2025/07/24
歐洲與亞洲分處廣袤大陸的兩端,兩者間的交流極為緩慢。在16世紀前,歐洲對亞洲的認知主要來自於這片遙遠土地的傳說與故事,其中最著名的故事來自13世紀的《馬可·波羅遊記》。威尼斯商人之子馬可波羅為蒙古人效力並記錄旅途見聞,成為歐洲了解亞洲的重要來源,該書在當時被視為權威之作。
Thumbnail
2025/07/16
1830年代,在歐洲尚未掀起東方藝術熱潮之際,法國第三共和國的首任總統阿道夫·梯也爾(Adolphe Thiers)便獨具慧眼開始蒐集,並組成一套完整的亞洲藝術收藏,堪稱先驅。當時法國除了少數曾親身前往亞洲的旅行者或繼承家族藝術收藏的人士之外,鮮少人真正接觸過亞洲文化,梯也爾就是在這背景下進行收藏。
Thumbnail
2025/07/16
1830年代,在歐洲尚未掀起東方藝術熱潮之際,法國第三共和國的首任總統阿道夫·梯也爾(Adolphe Thiers)便獨具慧眼開始蒐集,並組成一套完整的亞洲藝術收藏,堪稱先驅。當時法國除了少數曾親身前往亞洲的旅行者或繼承家族藝術收藏的人士之外,鮮少人真正接觸過亞洲文化,梯也爾就是在這背景下進行收藏。
Thumbnail
2025/07/08
歐洲正受到酷熱天氣的持續侵襲,各國氣象局已發布最高級別的熱浪紅色警報。葡萄牙在6月29日一度飆升至46.6°C;西班牙與英格蘭錄得有史以來最炎熱的6月;法國多地亦連續數日突破40°C,緊急宣布學校全部或部分關閉;義大利多地禁止在最熱時段進行戶外工作。各地出現熱中暑病例激增,甚至因高溫死亡。
Thumbnail
2025/07/08
歐洲正受到酷熱天氣的持續侵襲,各國氣象局已發布最高級別的熱浪紅色警報。葡萄牙在6月29日一度飆升至46.6°C;西班牙與英格蘭錄得有史以來最炎熱的6月;法國多地亦連續數日突破40°C,緊急宣布學校全部或部分關閉;義大利多地禁止在最熱時段進行戶外工作。各地出現熱中暑病例激增,甚至因高溫死亡。
Thumbnail
看更多
你可能也想看
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
14天每天超過10小時共2,700餘張圖片生成大量操作,AI繪圖用於商業製作的利與弊。
Thumbnail
14天每天超過10小時共2,700餘張圖片生成大量操作,AI繪圖用於商業製作的利與弊。
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
擁有科技媒體《The Verge》、遊戲媒體《Polygon》與美食網站的《Eater》的 Vox Media,五月底時宣布跟 OpenAI 簽署內容許可協議,允許 OpenAI 存取旗下新聞網站的所有內容,並且用於訓練 ChatGPT 和其他 AI 模型。
Thumbnail
擁有科技媒體《The Verge》、遊戲媒體《Polygon》與美食網站的《Eater》的 Vox Media,五月底時宣布跟 OpenAI 簽署內容許可協議,允許 OpenAI 存取旗下新聞網站的所有內容,並且用於訓練 ChatGPT 和其他 AI 模型。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
《紐約時報》控告微軟, 大量使用他們的報導文章去訓練AI, 他們宣稱這是侵權的非法行為。
Thumbnail
《紐約時報》控告微軟, 大量使用他們的報導文章去訓練AI, 他們宣稱這是侵權的非法行為。
Thumbnail
在現代辦公室環境中,人工智慧(AI)技術的應用已經變得越來越普遍,並且對提高工作效率和生產力起到了重要作用。
Thumbnail
在現代辦公室環境中,人工智慧(AI)技術的應用已經變得越來越普遍,並且對提高工作效率和生產力起到了重要作用。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News