
為了滿足演算法對資料的需求,AI產業正以前所未有的規模掃描、擷取網路上的開放內容。這股「數據掠奪潮」不僅對公共知識平台造成沉重負擔,也引發網路運作效率與資源分配的危機。
倫敦國王學院(King’s College London)計算機科學教授伊蓮娜·辛珀爾(Elena Simperl)說明:「維基百科基金會在全球擁有自己的資料中心,不依賴第三方服務供應商4,並維護自己的網路基礎設施,目的是讓用戶能以低延遲方式5存取內容。」儘管這些內容是免費的,但它們仍需持續的技術維護與更新,包括伺服器管理、能源,以及支付技術團隊的薪資,以確保基礎架構的正常運行與安全。
在有重大新聞事件、流量激增時,維基百科網站可靠性工程(SRE)團隊會將優先內容保存在快取記憶體6,並根據使用者所在區域來優化伺服器連線。但這些網路爬蟲並無其他目的,只是為了提取7資料,它們會自動在網站上移動,透過連結跳轉來造訪盡可能多的頁面,為網頁帶來龐大且不規則的流量,導致網路不穩定,並帶來沉重的財務負擔。
許多網路使用者都提出類似經驗,尤其是開源社群,它們通常難以承擔維護網站的財務壓力。Mozilla的工程師丹尼斯·舒伯特(Dennis Schubert)於2024年12月指出,其伺服器Diaspora上70%的請求來自網路爬蟲,僅OpenAI的爬蟲就佔了24.6%。他表示這根本就是對整個網路的阻斷服務攻擊8。
2025年3月,程式設計師德魯・德沃特(Drew DeVault)在一篇部落格文章中無奈地提到他的開發平台SourceHut每週出現數十次小型當機。3月19日,開源社群KDE在GitLab平台上曾因中國科技巨頭阿里巴巴的一個網路爬蟲導致整體無法存取。
為了減緩衝擊,維基媒體基金會提出一項替代方案:在Kaggle平台上提供一個專為AI訓練設計的維基百科資料集(含英文與法文版本),總資料量達113.58 GB。目的在於吸引爬蟲去下載該資料集,而不是直接抓取網站內容。
其他的因應措施則更為激進。例如全面封鎖所有機器人,但這可能會對整體網路產生不良影響;或者要求連線者提供「工作量證明」的驗證機制,以此辨別合法使用者與濫用行為,不過這樣可能會拖慢正常使用者的連線速度。
一位程式設計師則借鑑了反垃圾郵件(anti-spam)的手法:設計誘餌頁面,吸引爬蟲前來。這些頁面充斥著無意義的假內容9,且不提供任何超連結,使得爬蟲短時間內無法脫身。提供雲端服務的公司Cloudflare也有類似但較溫和的解決方案,稱為「AI迷宮」(AI Labyrinth),頁面本身是由AI生成的,雖無錯誤,但因與真正欲保護的網站內容無關而毫無用處。爬蟲會在這些頁面上浪費時間與資源,而真正的用戶與合法爬蟲則不會被導向這些頁面。
網路上的開放內容是訓練模型的重要資源。然而,大規模且無差別的資料擷取行為,已對網站的基礎設施與營運造成實質壓力。在技術進步與公共利益之間,如何取得合理平衡,已成為未來網路治理中不可忽視的議題。
Lexique:
1. …… et consorts:同夥,⋯⋯等人,⋯⋯及其他人。
2. Un Robot d’exploration du Web:網路爬蟲,也可直接使用英文web crawler。
3. La bande passante:頻寬,指一段時間內,網路連線所能傳輸的最大資料量。頻寬如被爬蟲大量下載會導致速度變慢、延遲增加,甚至網路中斷。
4. Un prestataire tiers: 第三方服務供應商。prestataire (n.m.) 提供補助者。Tiers (n.m./ adj.) 第三者,三分之一。
5. Une faible latence:低延遲,指網路用戶能快速獲得回應與內容顯示,不需要等太久。Latence (n.f.) 潛在,潛伏,在這指從發出一個請求(例如打開網頁、點擊連結)到伺服器回應的這段時間。
6. Laisser des contenus prioritaires en cache:將重要內容儲存在快取中以加速載入。
[1] Des contenus prioritaires:優先內容,指在特定時刻最常被查閱、最重要或流量最大的頁面,例如:重大新聞條目、熱門人物介紹或災難事件的條目。
[2] En cache:進入快取,指內容會被提前儲存在伺服器的快取系統裡,當大量使用者來訪時,不需要每次都重新生成網頁,而是直接送出快取版本,大幅減少伺服器負擔,加快載入速度。
7. Extraire:(v.t.) 提出,提煉,擷取。
8. Une attaque par déni de service: 阻斷服務攻擊,一種透過大量請求使伺服器資源耗盡的攻擊手法。
9. Un charabia:(n.m.) 難懂的、莫名其妙的話。
本文參考:
Arnaud Devillard, « Le Web assiégé par les robots de l’IA », in Sciences et Avenir N˚ 941-942, Juillet-Août 2025, pp.80-81