封鎖 AI 爬蟲的網站正面臨一個殘酷的現實:robots.txt 既無法真正阻擋 AI 存取內容,反而可能讓網站在 AI 主導的新資訊生態中逐漸隱形。 根據華頓商學院 2025 年 12 月的研究,封鎖 AI 爬蟲的前 30 大新聞出版商總流量下降了 23%,其中人類流量下降 14%。與此同時,全球已有超過 10 億用戶 透過 Google AI Overview 閱讀 AI 摘要,65% 的美國成年人 經常在搜尋結果中看到 AI 生成的摘要。零點擊搜尋比例從 2024 年的 56% 攀升至 2025 年的 69%,而 Agentic AI 瀏覽器(如 OpenAI Atlas、Perplexity Comet)已能偽裝成普通 Chrome 瀏覽器,使任何封鎖措施形同虛設。整個數位出版生態系統正處於一場結構性危機之中——出版商、創作者、AI 平台與讀者之間的價值交換機制已經徹底崩壞。
三分之二的網路使用者已在閱讀 AI 摘要
AI 摘要閱讀已從早期採用者的行為,迅速演變為主流的資訊消費模式。Pew 研究中心 2025 年 8 月的調查顯示,65% 的美國成年人 至少偶爾在搜尋結果中遇到 AI 摘要,其中 45% 表示「經常」或「非常頻繁」看到。YouGov 2025 年 2 月的調查進一步發現,38% 的使用者在一半以上的搜尋中閱讀 AI 摘要,Z 世代比例高達 59%,千禧世代為 56%,嬰兒潮世代僅 17%。Morning Consult 2025 年 5 月的數據則顯示,58% 的美國成年人 表示 AI 摘要已成為其搜尋流程的主要組成部分。
Google AI Overview 是目前觸及率最高的 AI 摘要平台,Google 官方宣布其月活躍用戶已超過 10 億人。根據 Semrush 的追蹤數據,AI Overview 觸發率從 2025 年 1 月的 6.49% 飆升至 7 月的約 25%,隨後回落至 11 月的 15.69%。Pew 研究中心以實際瀏覽數據追蹤 900 名使用者的 68,879 次搜尋,發現 2025 年 3 月有 18% 的搜尋 產生了 AI 摘要,58% 的使用者 至少遇到過一次。在行動裝置上,AI Overview 的出現比例更高,Semrush 數據顯示美國行動搜尋中有 21.59% 觸發 AI 摘要。
ChatGPT 作為另一主要入口,2025 年底週活躍用戶已達 8 至 9 億,日處理查詢量達 10 至 20 億次,已成為全球第 4 至第 6 大網站。OpenAI 透露 ChatGPT 在 2025 年某週內處理了超過 10 億次網頁搜尋。Perplexity AI 則在 2025 年 5 月達到 7.8 億次月搜尋量(較 2024 年 8 月的 2.3 億成長近 240%),月訪問量達 1.53 億次。
這些數據指向一個關鍵趨勢:零點擊搜尋 正在加速侵蝕傳統網站流量。SparkToro 與 SimilarWeb 的數據顯示,58.5% 的美國 Google 搜尋 以零點擊告終,行動端更高達約 77%。更值得警惕的是,AI 功能對零點擊率的放大效應極為顯著——沒有 AI Overview 時零點擊率約 34%,有 AI Overview 時升至約 43%,而在 Google AI Mode 中,零點擊率高達驚人的 93%。Pew 研究中心的實際瀏覽數據證實,遇到 AI 摘要的使用者僅有 8% 會點擊傳統搜尋結果(未遇到時為 15%),而且看到 AI 摘要後直接結束瀏覽的比例為 26%(未看到時僅 16%)。對新聞類查詢而言,零點擊比例從 2024 年 5 月的 56% 上升至 2025 年 5 月的約 69%。
robots.txt 是一道「請勿進入」的告示牌,而非一扇上鎖的門
robots.txt 協議誕生於 1994 年,本質上是一個基於互信的自願性規範,而非強制執行機制。在 AI 爬蟲時代,這個三十年歷史的協議正面臨前所未有的合規危機。
TollBit 透過追蹤 2,000 多個出版商網站、650 億次網站訪問的數據,提供了目前最詳盡的 AI 爬蟲合規追蹤。其報告顯示,無視 robots.txt 的 AI 爬蟲請求比例從 2024 年第四季的 3.3% 飆升至 2025 年第二季的 13.26%,成長幅度達四倍。2025 年 3 月,單月就有超過 2,600 萬次 AI 爬取行為繞過了 robots.txt。英國 365i 公司針對 47 個英國商業網站的測試發現,72% 的網站 經歷過 AI 爬蟲違反 robots.txt 規則的情況。
各主要 AI 爬蟲的合規情況差異懸殊。根據 Liu 等人 2025 年發表於 ACM 網路計量學會議的學術研究,以及 Cloudflare 的基礎設施級觀測數據,合規狀況大致如下:GPTBot(OpenAI 訓練用)、ClaudeBot(Anthropic)、CCBot(Common Crawl)、Applebot 大致遵守 robots.txt;Meta-ExternalAgent 初期違規但後來逐步遵守;而 Bytespider(字節跳動) 雖然會讀取 robots.txt 檔案,卻完全忽視其中的指令。
Perplexity AI 是目前記錄最完整的違規者。 2024 年 6 月,獨立開發者 Robb Knight 發現 Perplexity 使用無頭瀏覽器(偽裝為 Windows 10 上的 Chrome),以非官方 IP 範圍爬取被封鎖的內容。Wired 雜誌在三個月內記錄到至少 822 次來自 Perplexity 的未授權存取。最具決定性的證據來自 Cloudflare 2025 年 8 月的調查——Cloudflare 建立了全新的測試網域並透過 robots.txt 封鎖所有機器人,結果發現當 PerplexityBot 被封鎖後,一個使用不同 User Agent、IP 位址和 ASN 的全新爬蟲隨即出現,每日發送 300 至 600 萬次請求。當這些隱匿爬蟲也被封鎖後,Perplexity 的 AI 回答變得不夠具體甚至出現幻覺,證實這些未宣告的爬蟲確實在為 Perplexity 提供數據。Cloudflare 因此將 Perplexity 從已驗證機器人名單中除名。
另一個值得關注的發展是 OpenAI 在 2025 年 12 月 9 日悄悄修改了 ChatGPT-User 的合規政策,從文件中移除了 ChatGPT-User 遵守 robots.txt 的相關語言,僅保留 OAI-SearchBot 和 GPTBot 的合規承諾。這意味著用戶主動發起的 AI 瀏覽行為已不再受 robots.txt 約束。
儘管 robots.txt 的效力存疑,封鎖浪潮依然持續。Originality.ai 的追蹤數據顯示,前 1,000 大網站中封鎖 GPTBot 的比例從 2023 年 8 月的 9.1% 飆升至 2024 年 8 月的 35.7%。BuzzStream 2025 年的研究發現,前 100 大新聞網站中 79% 封鎖了至少一個 AI 訓練爬蟲,71% 封鎖了至少一個即時檢索爬蟲。截至 2025 年 12 月,全球約有 560 萬個網站 封鎖 GPTBot,580 萬個 封鎖 ClaudeBot。然而 Cloudflare Radar 的數據顯示,這波封鎖浪潮似乎已在 2025 年底 / 2026 年初趨於穩定。
出版商封鎖 AI 爬蟲的七層動機
網站管理者使用 robots.txt 封鎖 AI 爬蟲的動機是多層次的,從經濟利益到倫理原則交織在一起。
第一,著作權保護是最核心的驅動力。 截至 2025 年,已有超過 50 起與 AI 相關的著作權訴訟,其中紐約時報訴 OpenAI 案是指標性案件。紐約時報指控 OpenAI 未經授權使用數百萬篇文章訓練 ChatGPT,法官 Sidney Stein 於 2025 年 3 月駁回了 OpenAI 的撤案動議,核心著作權主張得以繼續審理。紐約時報 2024 年在生成式 AI 訴訟上花費了 1,080 萬美元。Condé Nast 聯合 The Atlantic、Forbes、The Guardian 等 14 家主要出版商控告 AI 新創公司 Cohere「大規模逐字複製」內容用於訓練模型。
第二,防止內容被用於 AI 訓練。 NeurIPS 2024 年發表的「Consent in Crisis」研究審計了 14,000 個網域,發現 2023 至 2024 年間,主要訓練語料庫 C4 中有超過 5% 的 token 已透過 robots.txt 被限制,其中最關鍵來源的 28% 以上被完全限制,新聞網站的 token 有近 45% 被完全限制。關鍵在於不可逆性——不同於搜尋引擎索引可以在更新 robots.txt 後被「遺忘」,一旦內容被編碼進 LLM 的神經網路,幾乎不可能移除。
第三,保護付費牆。 紐約時報在訴訟中指出,GPT 模型能產生「合成搜尋結果」,「複製的原始文章表達性內容遠多於傳統線上搜尋所顯示的」,實質上讓讀者繞過付費牆。Bing Chat 曾被記錄複製了紐約時報一篇文章「前 396 個字中除了 2 個字以外的所有內容」。
第四,維護流量與廣告收入。 AI 搜尋引擎每次搜尋送出的流量比傳統搜尋引擎少 96%。Cloudflare 2025 年 6 月的數據揭示了令人震驚的爬取-回饋比:OpenAI 每爬取 1,700 次才為網站帶回 1 次訪問,Anthropic 的比例更是高達 73,000:1。
第五,伺服器與基礎設施負擔。 維基媒體基金會報告自 2024 年 1 月以來,機器人和 AI 爬蟲導致基礎設施成本上升 50%。GPT 爬蟲可消耗高達 30 TB 的頻寬。部落格服務 Bear 在 2025 年 10 月因 AI 機器人流量而發生服務中斷。旅遊網站 Skift 即使在實施 robots.txt 封鎖後,每週仍被 GPTBot 爬取約 60,000 次。
第六,法律定位策略。 robots.txt 日益被用作法律證據——一種「禁止侵入」的信號,以強化著作權主張。在 Reddit 訴 Anthropic 案中,Reddit 援引其 robots.txt 和服務條款作為違約證據。不過在 Ziff Davis 訴 OpenAI 案中,法院裁定 robots.txt 並非 DMCA 下的「有效控制存取的技術措施」——它更像是一塊「告示牌」而非一道「屏障」。
第七,道德與同意原則。 News/Media Alliance 2024 年 2 月對 1,800 名美國選民的調查顯示,57% 支持補償出版商因 AI 訓練使用的內容,72% 支持政府對 AI 設置防護措施,77% 支持將 AI 未經許可複製新聞定為非法。
Agentic AI 讓封鎖變成一場打地鼠遊戲
當傳統 AI 爬蟲至少還會宣告自己的身份時,新一代的 Agentic AI 瀏覽器已經徹底改變了遊戲規則。OpenAI 的 Atlas 和 Perplexity 的 Comet(均於 2025 年底推出)是具有自主代理能力的「AI 瀏覽器」,對網站而言,它們與一個使用標準 Chrome 瀏覽器的真人完全無法區分。Columbia 新聞評論 2025 年 10 月的深度報導指出,這些 AI 瀏覽器在伺服器日誌中顯示為普通的 Chrome session,使得在不封鎖合法人類用戶的情況下幾乎不可能阻擋它們。
更關鍵的是 Agentic AI 在被封鎖後的替代策略。當 OpenAI 的 Atlas 發現無法直接存取某篇文章(例如 Ziff Davis 旗下 PCMag 的文章,因 Ziff Davis 正在控告 OpenAI),它會自動產生「複合式摘要」——從推文、轉載版本、其他媒體的引用和相關報導中拼湊出原始內容。線上研究專家 Henk van Ess 在 2025 年 7 月首次記錄了這一行為,將其描述為 AI 利用「數位麵包屑」逆向工程文章內容。CJR 的測試顯示,當被要求摘要一篇紐約時報文章時,Atlas 自動從衛報、華盛頓郵報、路透社和美聯社——其中三家已與 OpenAI 簽署授權協議——四個替代來源 生成了摘要。
Cloudflare 的測試也證實了這一模式:當隱匿爬蟲被成功封鎖後,Perplexity 會「使用其他數據來源——包括其他網站——來嘗試生成答案。然而,這些答案不夠具體且缺乏原始內容的細節。」
這種行為對原始網站的影響是雙重打擊:第一,使用者永遠不需要造訪原始出版商的網站;第二,AI 代理實質上將使用者的請求從「特定文章」重構為「一般主題」,改變了使用者最終閱讀的內容來源。CJR 精準地描述了這個兩難困境:「即使媒體機構成功阻止 AI 代理存取其內容,它面臨的是一個兩難困境:代理只是建議替代的報導內容。」
封鎖 AI 反而加速流量衰退的實證
「封鎖 AI 爬蟲是否導致流量下降」這個問題,目前最具分量的學術證據來自華頓商學院與羅格斯大學 2025 年 12 月發表的預印本研究。研究者 Hangcheng Zhao 與 Ron Berman 分析了 2022 年 10 月至 2025 年 6 月前 500 大新聞出版商的數據,發現封鎖 AI 爬蟲的前 30 大出版商總流量下降 23%,人類流量下降 14%。值得注意的是,流量顯著下降始於 2024 年 8 月(而非 ChatGPT 推出之初),部分出版商在經歷下降後撤回了封鎖規則。
然而,這個結論並非沒有爭議。廣告網路 Raptive 在 2025 年 7 月追蹤數千個創作者網站(2024 年 6 月至 2025 年 5 月)後發現,封鎖 AI 爬蟲的網站並無統計上顯著的流量變化,各組別的平均流量差異在 1% 以內。這一矛盾可能源於規模差異——華頓研究聚焦大型出版商,而 Raptive 的樣本主要為中小型創作者網站,暗示封鎖效應可能與網站規模高度相關。
無論是否因封鎖 AI 造成,整體出版業的流量危機是不爭的事實:
- CNN:年度流量下降 27%-38%
- Forbes:2025 年 7 月年度流量下降 50%
- Business Insider:自然搜尋流量下降 55%(2022 年 4 月至 2025 年 4 月),裁員 21%
- HuffPost:搜尋引薦流量減半
- Chegg:非訂閱流量下降 49%
- The Planet D(旅遊部落格):流量下降 90%,最終關站
- Charleston Crafted(居家改善部落格):三個月內流量下降 70%,廣告收入下降 65%
- DMG Media:報告點擊率下降 89%
- 2025 年 5 月,美國前 50 大新聞網站中有 37 家 經歷了年度流量下降
在 SEO 排名方面,目前沒有證據顯示封鎖 AI 爬蟲會直接導致 Google 搜尋排名下降。Google 官方確認封鎖 Google-Extended 不會影響搜尋排名或 AI Overview 的收錄。Raptive 的分析也佐證了這一點。然而間接效應確實存在——如果網站封鎖了即時檢索機器人(如 OAI-SearchBot、ChatGPT-User),當使用者向 AI 助手詢問相關資訊時,該網站的內容將不會被引用,即使模型已從先前的訓練中學習過這些內容。Pluralsight 警告:「你實際上是把自己從一場對話中抽離了——而這場對話會在沒有你的情況下繼續進行。」當 AI 系統缺乏某品牌的第一手內容時,它們會「預設引用論壇、第三方網站或聚合摘要的資訊」。
四方博弈下的生態系統裂解
這場圍繞 AI 摘要與內容封鎖的衝突,實質上是一場涉及出版商、內容創作者、AI 平台與讀者的四方博弈,每一方都面臨各自的結構性困境。
對出版商而言,這是一場不對稱的戰爭。 全球前 500 大出版商來自 Google 的流量平均下降了 27%,約每月損失 6,400 萬次 訪問。新聞產業的自然流量從 2024 年中的每月 23 億次暴跌至 2025 年 5 月的不到 17 億次——損失超過 6 億次月訪問。面對這場危機,內容授權已成為重要的新收入來源。截至 2025 年底,已追蹤到 34 筆授權交易,平均規模約 2,400 萬美元,總承諾金額約 29.2 億美元。News Corp 與 OpenAI 的五年 2.5 億美元協議堪稱標竿——相當於其五年淨利潤的 2.5 倍。OpenAI 以 18 筆交易佔全球交易的 53%,其次是 Google(12%)和 Microsoft(9%)。然而 Press Gazette 對 280 名媒體領袖的調查顯示,受訪者預計未來三年流量將平均下降 43%,僅 38% 對新聞業前景有信心(2022 年為 60%)。
對獨立內容創作者而言,處境更為艱難。 小型食譜和健康部落客在 AI Overview 出現後,首頁流量損失高達 65%。科技評測和聯盟行銷網站的收入直線下滑,因為「最佳筆電推薦」等購買意圖關鍵字現在直接觸發 AI 推薦而不將使用者導向評測網站。與大型出版商不同,獨立創作者缺乏與 AI 公司談判授權交易的議價能力,形成了一個「雙層系統」——大型出版商透過個別交易獲得補償,而獨立創作者在流量下降中得不到任何補償機制。
AI 平台正試圖在擴張與合法性之間取得平衡。 Google 聲稱 AI Overview 發送的是「更高品質」的點擊,Adobe 的分析顯示 AI 引薦用戶的跳出率低 23%、停留時間多 41%。OpenAI 在授權方面最為積極,年化收入已超過 200 億美元。Microsoft 被出版商評為最友善的平台,其「按使用付費」模式獲得好評。Perplexity 則推出了最具創新性的收入分享模型——Comet Plus 計劃設立 4,250 萬美元的收入池,80% 歸出版商、20% 歸 Perplexity,但同時面臨 News Corp、紐約時報、大英百科全書等多家機構的訴訟。Digiday 2025 年 12 月的出版商評分卡總結:「所有平台都可以做得更多,沒有人拿到好成績。」
對讀者而言,AI 摘要帶來便利的同時也埋下隱憂。 AI 摘要提供了即時的資訊存取,但幻覺問題不容忽視——OpenAI 的 o3 模型在個人相關問題上的幻覺率高達 33%,o4-mini 更達 48%。僅有 6% 的使用者「非常信任」AI 摘要。更深層的風險在於資訊同質化:AI 摘要傾向於將多元觀點壓縮為單一合成答案,剝離了競爭性觀點、細微差異和少數意見。AI 生成內容平均比人類內容少 29% 的字數,引用數據來源的頻率僅為人類的 32%。學者 Andrew J. Peterson 2025 年提出的「知識崩塌」概念警告,廣泛依賴遞迴 AI 系統可能導致可存取知識的漸進性收窄。
從打地鼠到建立新規則
現行的 robots.txt 體系本質上是一個 1994 年設計的「榮譽系統」,在面對 2025 年的 AI 生態時已經力不從心。業界正在探索多種替代方案:
技術層面,Cloudflare 2025 年推出的 Robotcop 將 robots.txt 規則轉化為在網路層強制執行的 WAF 規則,從「請求遵守」升級為「主動拒絕」。反制工具如 Nepenthes 和 Iocaine 則採取「蜜罐」策略,將爬蟲誘入無限的假內容迷宮。協議層面,TDMRep(W3C 社群小組開發的文字與數據探勘保留協議)提供了比 robots.txt 更精細的語義控制,支援基於目的的退出機制並包含授權聯繫資訊。Web Bot Auth(Cloudflare 提議的 W3C 標準)旨在提供爬蟲身份的加密驗證。Really Simple Licensing(RSL) 則讓內容授權可以直接嵌入 robots.txt,已有 50 多家出版商加入,但尚無主要 AI 公司承諾遵守。
商業模式層面,TollBit 與 Cloudflare 合作推出的「按爬取付費」模式讓出版商能對 AI 爬蟲收費而非僅僅封鎖,ProRata 的 50/50 收入分成模式已吸引 The Atlantic、Time、Fortune 等 100 多家合作夥伴。
監管層面,英國 CMA 正在審查相關投訴,歐盟出版商已提出反壟斷申訴,美國對 Google 的反壟斷案正待出版商保護措施,澳洲的《新聞媒體議價法》則提供了先例模型。
結論:封鎖是防禦,但不是策略
這場 AI 與內容生態的衝突揭示了三個核心洞察。其一,robots.txt 作為封鎖工具已經失效——它既無法阻止決心繞過的 AI 系統,也無法區分訓練爬取與有益的檢索引用,更無法應對偽裝成人類瀏覽器的 Agentic AI。其二,封鎖本身正在製造一個自我實現的預言——出版商為保護內容而封鎖 AI,結果使自己從 AI 主導的資訊發現管道中消失,讀者轉向替代來源,流量進一步下降,形成惡性循環。其三,整個生態系統面臨一個根本性的悖論:AI 系統需要出版商的內容來維持品質,出版商需要搜尋能見度來維持營運,讀者從 AI 摘要中受益但品質取決於正在被削弱的原始來源——三方互相依存卻彼此侵蝕。
未來的出路不在於更高的牆,而在於更好的規則。從「封鎖或開放」的二元對立,轉向「有條件的授權存取」——透過加密身份驗證、按使用付費、標準化授權協議——這可能是唯一能讓所有利害關係人存活的路徑。正如 Cloudflare 執行長 Matthew Prince 所言:「如果網際網路要在 AI 時代存活,我們需要給出版商他們應得的控制權,並建立一個對所有人都有效的新經濟模型。」這場賽跑的時間窗口正在迅速關閉。


















