AI爬蟲大軍侵襲!網站癱瘓危機Invasion de bots IA : sites surchargés

更新 發佈閱讀 6 分鐘


為了滿足演算法對資料的需求,AI產業正以前所未有的規模掃描、擷取網路上的開放內容。這股「數據掠奪潮」不僅對公共知識平台造成沉重負擔,也引發網路運作效率與資源分配的危機。

為了滿足演算法對資料的需求,AI產業正以前所未有的規模掃描、擷取網路上的開放內容。這股「數據掠奪潮」不僅對公共知識平台造成沉重負擔,也引發網路運作效率與資源分配的危機。


今年4月1日,維基媒體基金會(Wikimedia Foundation)揭露,AI產業已嚴重干擾其網站的正常運作。該基金會表示自2024年1月以來,由於OpenAI、Meta、Anthropic等企業1派出網路爬蟲2蒐集維基百科(Wikipedia)的文本與維基共享資源(WikiCommons)上1億4400萬個多媒體檔案,導致多媒體內容的下載流量3增加了50%。

 

倫敦國王學院(King’s College London)計算機科學教授伊蓮娜·辛珀爾(Elena Simperl)說明:「維基百科基金會在全球擁有自己的資料中心,不依賴第三方服務供應商4,並維護自己的網路基礎設施,目的是讓用戶能以低延遲方式5存取內容。」儘管這些內容是免費的,但它們仍需持續的技術維護與更新,包括伺服器管理、能源,以及支付技術團隊的薪資,以確保基礎架構的正常運行與安全。

 

在有重大新聞事件、流量激增時,維基百科網站可靠性工程(SRE)團隊會將優先內容保存在快取記憶體6,並根據使用者所在區域來優化伺服器連線。但這些網路爬蟲並無其他目的,只是為了提取7資料,它們會自動在網站上移動,透過連結跳轉來造訪盡可能多的頁面,為網頁帶來龐大且不規則的流量,導致網路不穩定,並帶來沉重的財務負擔。

 

許多網路使用者都提出類似經驗,尤其是開源社群,它們通常難以承擔維護網站的財務壓力。Mozilla的工程師丹尼斯·舒伯特(Dennis Schubert)於2024年12月指出,其伺服器Diaspora上70%的請求來自網路爬蟲,僅OpenAI的爬蟲就佔了24.6%。他表示這根本就是對整個網路的阻斷服務攻擊8


2025年3月,程式設計師德魯・德沃特(Drew DeVault)在一篇部落格文章中無奈地提到他的開發平台SourceHut每週出現數十次小型當機。3月19日,開源社群KDE在GitLab平台上曾因中國科技巨頭阿里巴巴的一個網路爬蟲導致整體無法存取。

 

為了減緩衝擊,維基媒體基金會提出一項替代方案:在Kaggle平台上提供一個專為AI訓練設計的維基百科資料集(含英文與法文版本),總資料量達113.58 GB。目的在於吸引爬蟲去下載該資料集,而不是直接抓取網站內容。

 

其他的因應措施則更為激進。例如全面封鎖所有機器人,但這可能會對整體網路產生不良影響;或者要求連線者提供「工作量證明」的驗證機制,以此辨別合法使用者與濫用行為,不過這樣可能會拖慢正常使用者的連線速度。

 

一位程式設計師則借鑑了反垃圾郵件(anti-spam)的手法:設計誘餌頁面,吸引爬蟲前來。這些頁面充斥著無意義的假內容9,且不提供任何超連結,使得爬蟲短時間內無法脫身。提供雲端服務的公司Cloudflare也有類似但較溫和的解決方案,稱為「AI迷宮」(AI Labyrinth),頁面本身是由AI生成的,雖無錯誤,但因與真正欲保護的網站內容無關而毫無用處。爬蟲會在這些頁面上浪費時間與資源,而真正的用戶與合法爬蟲則不會被導向這些頁面。

 

網路上的開放內容是訓練模型的重要資源。然而,大規模且無差別的資料擷取行為,已對網站的基礎設施與營運造成實質壓力。在技術進步與公共利益之間,如何取得合理平衡,已成為未來網路治理中不可忽視的議題。

 




Lexique:

1.   …… et consorts:同夥,⋯⋯等人,⋯⋯及其他人。

2.   Un Robot d’exploration du Web:網路爬蟲,也可直接使用英文web crawler

3.   La bande passante:頻寬,指一段時間內,網路連線所能傳輸的最大資料量。頻寬如被爬蟲大量下載會導致速度變慢、延遲增加,甚至網路中斷。

4.   Un prestataire tiers: 第三方服務供應商。prestataire (n.m.) 提供補助者。Tiers (n.m./ adj.) 第三者,三分之一。

5.   Une faible latence:低延遲,指網路用戶能快速獲得回應與內容顯示,不需要等太久。Latence (n.f.) 潛在,潛伏,在這指從發出一個請求(例如打開網頁、點擊連結)到伺服器回應的這段時間。

6.   Laisser des contenus prioritaires en cache:將重要內容儲存在快取中以加速載入。

[1]  Des contenus prioritaires:優先內容,指在特定時刻最常被查閱、最重要或流量最大的頁面,例如:重大新聞條目、熱門人物介紹或災難事件的條目。

[2]  En cache:進入快取,指內容會被提前儲存在伺服器的快取系統裡,當大量使用者來訪時,不需要每次都重新生成網頁,而是直接送出快取版本,大幅減少伺服器負擔,加快載入速度。

7.   Extraire:(v.t.) 提出,提煉,擷取。

8.   Une attaque par déni de service: 阻斷服務攻擊,一種透過大量請求使伺服器資源耗盡的攻擊手法。

9.   Un charabia:(n.m.) 難懂的、莫名其妙的話。



本文參考:

Arnaud Devillard, « Le Web assiégé par les robots de l’IA », in Sciences et Avenir N˚ 941-942, Juillet-Août 2025, pp.80-81

留言
avatar-img
留言分享你的想法!
avatar-img
Ad Astra的沙龍
4會員
83內容數
這個平台提供關於法國時事、心理學、科學、歷史、文化、藝術和哲學等領域的文章,文章內會介紹該領域的法文詞彙和使用到的文法,希望分享知識的同時,可以幫助對法文有興趣者學習法文。
Ad Astra的沙龍的其他內容
2025/07/24
歐洲與亞洲分處廣袤大陸的兩端,兩者間的交流極為緩慢。在16世紀前,歐洲對亞洲的認知主要來自於這片遙遠土地的傳說與故事,其中最著名的故事來自13世紀的《馬可·波羅遊記》。威尼斯商人之子馬可波羅為蒙古人效力並記錄旅途見聞,成為歐洲了解亞洲的重要來源,該書在當時被視為權威之作。
Thumbnail
2025/07/24
歐洲與亞洲分處廣袤大陸的兩端,兩者間的交流極為緩慢。在16世紀前,歐洲對亞洲的認知主要來自於這片遙遠土地的傳說與故事,其中最著名的故事來自13世紀的《馬可·波羅遊記》。威尼斯商人之子馬可波羅為蒙古人效力並記錄旅途見聞,成為歐洲了解亞洲的重要來源,該書在當時被視為權威之作。
Thumbnail
2025/07/16
1830年代,在歐洲尚未掀起東方藝術熱潮之際,法國第三共和國的首任總統阿道夫·梯也爾(Adolphe Thiers)便獨具慧眼開始蒐集,並組成一套完整的亞洲藝術收藏,堪稱先驅。當時法國除了少數曾親身前往亞洲的旅行者或繼承家族藝術收藏的人士之外,鮮少人真正接觸過亞洲文化,梯也爾就是在這背景下進行收藏。
Thumbnail
2025/07/16
1830年代,在歐洲尚未掀起東方藝術熱潮之際,法國第三共和國的首任總統阿道夫·梯也爾(Adolphe Thiers)便獨具慧眼開始蒐集,並組成一套完整的亞洲藝術收藏,堪稱先驅。當時法國除了少數曾親身前往亞洲的旅行者或繼承家族藝術收藏的人士之外,鮮少人真正接觸過亞洲文化,梯也爾就是在這背景下進行收藏。
Thumbnail
2025/07/08
歐洲正受到酷熱天氣的持續侵襲,各國氣象局已發布最高級別的熱浪紅色警報。葡萄牙在6月29日一度飆升至46.6°C;西班牙與英格蘭錄得有史以來最炎熱的6月;法國多地亦連續數日突破40°C,緊急宣布學校全部或部分關閉;義大利多地禁止在最熱時段進行戶外工作。各地出現熱中暑病例激增,甚至因高溫死亡。
Thumbnail
2025/07/08
歐洲正受到酷熱天氣的持續侵襲,各國氣象局已發布最高級別的熱浪紅色警報。葡萄牙在6月29日一度飆升至46.6°C;西班牙與英格蘭錄得有史以來最炎熱的6月;法國多地亦連續數日突破40°C,緊急宣布學校全部或部分關閉;義大利多地禁止在最熱時段進行戶外工作。各地出現熱中暑病例激增,甚至因高溫死亡。
Thumbnail
看更多
你可能也想看
Thumbnail
2025 九月最後一次 vocus 創作者推薦來啦!從日本獨旅專家、與兩歲娃的南法親子旅行,到台灣健行筆記,結合色彩與符號學的文化觀察,還有透過斜槓的前往理想生活的路途,邀請你跟著 vocus 創作者,用一百種視野探索這個世界!
Thumbnail
2025 九月最後一次 vocus 創作者推薦來啦!從日本獨旅專家、與兩歲娃的南法親子旅行,到台灣健行筆記,結合色彩與符號學的文化觀察,還有透過斜槓的前往理想生活的路途,邀請你跟著 vocus 創作者,用一百種視野探索這個世界!
Thumbnail
在溫哥華這座被大自然擁抱的城市,不會游泳的人也能在水裡泡一泡~~感受清涼和放鬆。 剛到溫哥華時,我去史丹利公園騎腳踏車,意外經過了 Second Beach Pool。那一眼真是讓我久久不能自己( • ̀ω•́ ),泳池的前方就是開闊的 English Bay,看到泳池裡的人群漂浮在海天之間。
Thumbnail
在溫哥華這座被大自然擁抱的城市,不會游泳的人也能在水裡泡一泡~~感受清涼和放鬆。 剛到溫哥華時,我去史丹利公園騎腳踏車,意外經過了 Second Beach Pool。那一眼真是讓我久久不能自己( • ̀ω•́ ),泳池的前方就是開闊的 English Bay,看到泳池裡的人群漂浮在海天之間。
Thumbnail
七星山主峰已走過幾次,這次要探探沒走過的夢幻湖↔️東峰段路線,補上「陽明山東西大縱走」中的七星山段。因為不喜歡原路折返,所以規劃一個簡易 小O路線,可以免費停車,還能把心頭好的秋芒看好看滿,很推薦的路線唷!
Thumbnail
七星山主峰已走過幾次,這次要探探沒走過的夢幻湖↔️東峰段路線,補上「陽明山東西大縱走」中的七星山段。因為不喜歡原路折返,所以規劃一個簡易 小O路線,可以免費停車,還能把心頭好的秋芒看好看滿,很推薦的路線唷!
Thumbnail
2025年9月1日起,臺新多張信用卡將整合為臺新Richart卡,並推出七大刷卡方案。本文詳細分析各方案優缺點、停卡教學及其他信用卡推薦,協助讀者選擇最適合自己的方案。
Thumbnail
2025年9月1日起,臺新多張信用卡將整合為臺新Richart卡,並推出七大刷卡方案。本文詳細分析各方案優缺點、停卡教學及其他信用卡推薦,協助讀者選擇最適合自己的方案。
Thumbnail
首先,最關鍵的問題就是「原創」是否有必要性? 我認為答案是否定的,因為原作者在翻拍時就創作了《今際之國的闖關者 RETRY》,講述的是有栖成為心理諮詢師後,因為救人意外再次被捲入遊戲世界。這樣的續作已經能自然承接主線。如今這種「硬原創」,只會讓整個 IP 的口碑下滑,新角色也淪為犧牲品。
Thumbnail
首先,最關鍵的問題就是「原創」是否有必要性? 我認為答案是否定的,因為原作者在翻拍時就創作了《今際之國的闖關者 RETRY》,講述的是有栖成為心理諮詢師後,因為救人意外再次被捲入遊戲世界。這樣的續作已經能自然承接主線。如今這種「硬原創」,只會讓整個 IP 的口碑下滑,新角色也淪為犧牲品。
Thumbnail
「知道自己怎麼了,然後呢?現狀還是沒有任何改變。」伴侶與諮商師晤談之前,曾與我描述她的狀態:「其實道理我都知道,已經發生很多次,我也在狀態好的時候練習過很多次。可是現在腦海的雜亂聲音不斷攻擊我,我知道『可以』怎麼想比較好、知道那些聲音是怎麼來的,也知道躺平軟爛你也不會覺得我怎樣。但知道又如何?
Thumbnail
「知道自己怎麼了,然後呢?現狀還是沒有任何改變。」伴侶與諮商師晤談之前,曾與我描述她的狀態:「其實道理我都知道,已經發生很多次,我也在狀態好的時候練習過很多次。可是現在腦海的雜亂聲音不斷攻擊我,我知道『可以』怎麼想比較好、知道那些聲音是怎麼來的,也知道躺平軟爛你也不會覺得我怎樣。但知道又如何?
Thumbnail
一轉眼,咩咩就已經九個多月大了,天氣也漸漸涼了起來,可以開始真的帶去爬山囉! 住在新店已經六年了,選擇二格山當她們的第一座小百岳,非常有意義。而且這天天氣超級好,視野好到超乎預期,連大霸尖山和南湖大山都一清二楚! 雖然我們作弊從小格頭起登,來回也才1.2k上一百多,但她們都玩得非常開心呢!
Thumbnail
一轉眼,咩咩就已經九個多月大了,天氣也漸漸涼了起來,可以開始真的帶去爬山囉! 住在新店已經六年了,選擇二格山當她們的第一座小百岳,非常有意義。而且這天天氣超級好,視野好到超乎預期,連大霸尖山和南湖大山都一清二楚! 雖然我們作弊從小格頭起登,來回也才1.2k上一百多,但她們都玩得非常開心呢!
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
14天每天超過10小時共2,700餘張圖片生成大量操作,AI繪圖用於商業製作的利與弊。
Thumbnail
14天每天超過10小時共2,700餘張圖片生成大量操作,AI繪圖用於商業製作的利與弊。
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
擁有科技媒體《The Verge》、遊戲媒體《Polygon》與美食網站的《Eater》的 Vox Media,五月底時宣布跟 OpenAI 簽署內容許可協議,允許 OpenAI 存取旗下新聞網站的所有內容,並且用於訓練 ChatGPT 和其他 AI 模型。
Thumbnail
擁有科技媒體《The Verge》、遊戲媒體《Polygon》與美食網站的《Eater》的 Vox Media,五月底時宣布跟 OpenAI 簽署內容許可協議,允許 OpenAI 存取旗下新聞網站的所有內容,並且用於訓練 ChatGPT 和其他 AI 模型。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News