當 robots.txt 成為雙面刃：AI 時代的內容封鎖悖論

2026/02/17 更新2026/02/17 發佈閱讀 23 分鐘

封鎖 AI 爬蟲的網站正面臨一個殘酷的現實：robots.txt 既無法真正阻擋 AI 存取內容，反而可能讓網站在 AI 主導的新資訊生態中逐漸隱形。 根據華頓商學院 2025 年 12 月的研究，封鎖 AI 爬蟲的前 30 大新聞出版商總流量下降了 23%，其中人類流量下降 14%。與此同時，全球已有超過 10 億用戶 透過 Google AI Overview 閱讀 AI 摘要，65% 的美國成年人 經常在搜尋結果中看到 AI 生成的摘要。零點擊搜尋比例從 2024 年的 56% 攀升至 2025 年的 69%，而 Agentic AI 瀏覽器（如 OpenAI Atlas、Perplexity Comet）已能偽裝成普通 Chrome 瀏覽器，使任何封鎖措施形同虛設。整個數位出版生態系統正處於一場結構性危機之中——出版商、創作者、AI 平台與讀者之間的價值交換機制已經徹底崩壞。

三分之二的網路使用者已在閱讀 AI 摘要

AI 摘要閱讀已從早期採用者的行為，迅速演變為主流的資訊消費模式。Pew 研究中心 2025 年 8 月的調查顯示，65% 的美國成年人 至少偶爾在搜尋結果中遇到 AI 摘要，其中 45% 表示「經常」或「非常頻繁」看到。YouGov 2025 年 2 月的調查進一步發現，38% 的使用者在一半以上的搜尋中閱讀 AI 摘要，Z 世代比例高達 59%，千禧世代為 56%，嬰兒潮世代僅 17%。Morning Consult 2025 年 5 月的數據則顯示，58% 的美國成年人 表示 AI 摘要已成為其搜尋流程的主要組成部分。

Google AI Overview 是目前觸及率最高的 AI 摘要平台，Google 官方宣布其月活躍用戶已超過 10 億人。根據 Semrush 的追蹤數據，AI Overview 觸發率從 2025 年 1 月的 6.49% 飆升至 7 月的約 25%，隨後回落至 11 月的 15.69%。Pew 研究中心以實際瀏覽數據追蹤 900 名使用者的 68,879 次搜尋，發現 2025 年 3 月有 18% 的搜尋 產生了 AI 摘要，58% 的使用者 至少遇到過一次。在行動裝置上，AI Overview 的出現比例更高，Semrush 數據顯示美國行動搜尋中有 21.59% 觸發 AI 摘要。

ChatGPT 作為另一主要入口，2025 年底週活躍用戶已達 8 至 9 億，日處理查詢量達 10 至 20 億次，已成為全球第 4 至第 6 大網站。OpenAI 透露 ChatGPT 在 2025 年某週內處理了超過 10 億次網頁搜尋。Perplexity AI 則在 2025 年 5 月達到 7.8 億次月搜尋量（較 2024 年 8 月的 2.3 億成長近 240%），月訪問量達 1.53 億次。

這些數據指向一個關鍵趨勢：零點擊搜尋 正在加速侵蝕傳統網站流量。SparkToro 與 SimilarWeb 的數據顯示，58.5% 的美國 Google 搜尋 以零點擊告終，行動端更高達約 77%。更值得警惕的是，AI 功能對零點擊率的放大效應極為顯著——沒有 AI Overview 時零點擊率約 34%，有 AI Overview 時升至約 43%，而在 Google AI Mode 中，零點擊率高達驚人的 93%。Pew 研究中心的實際瀏覽數據證實，遇到 AI 摘要的使用者僅有 8% 會點擊傳統搜尋結果（未遇到時為 15%），而且看到 AI 摘要後直接結束瀏覽的比例為 26%（未看到時僅 16%）。對新聞類查詢而言，零點擊比例從 2024 年 5 月的 56% 上升至 2025 年 5 月的約 69%。

robots.txt 是一道「請勿進入」的告示牌，而非一扇上鎖的門

robots.txt 協議誕生於 1994 年，本質上是一個基於互信的自願性規範，而非強制執行機制。在 AI 爬蟲時代，這個三十年歷史的協議正面臨前所未有的合規危機。

TollBit 透過追蹤 2,000 多個出版商網站、650 億次網站訪問的數據，提供了目前最詳盡的 AI 爬蟲合規追蹤。其報告顯示，無視 robots.txt 的 AI 爬蟲請求比例從 2024 年第四季的 3.3% 飆升至 2025 年第二季的 13.26%，成長幅度達四倍。2025 年 3 月，單月就有超過 2,600 萬次 AI 爬取行為繞過了 robots.txt。英國 365i 公司針對 47 個英國商業網站的測試發現，72% 的網站 經歷過 AI 爬蟲違反 robots.txt 規則的情況。

各主要 AI 爬蟲的合規情況差異懸殊。根據 Liu 等人 2025 年發表於 ACM 網路計量學會議的學術研究，以及 Cloudflare 的基礎設施級觀測數據，合規狀況大致如下：GPTBot（OpenAI 訓練用）、ClaudeBot（Anthropic）、CCBot（Common Crawl）、Applebot 大致遵守 robots.txt；Meta-ExternalAgent 初期違規但後來逐步遵守；而 Bytespider（字節跳動） 雖然會讀取 robots.txt 檔案，卻完全忽視其中的指令。

Perplexity AI 是目前記錄最完整的違規者。 2024 年 6 月，獨立開發者 Robb Knight 發現 Perplexity 使用無頭瀏覽器（偽裝為 Windows 10 上的 Chrome），以非官方 IP 範圍爬取被封鎖的內容。Wired 雜誌在三個月內記錄到至少 822 次來自 Perplexity 的未授權存取。最具決定性的證據來自 Cloudflare 2025 年 8 月的調查——Cloudflare 建立了全新的測試網域並透過 robots.txt 封鎖所有機器人，結果發現當 PerplexityBot 被封鎖後，一個使用不同 User Agent、IP 位址和 ASN 的全新爬蟲隨即出現，每日發送 300 至 600 萬次請求。當這些隱匿爬蟲也被封鎖後，Perplexity 的 AI 回答變得不夠具體甚至出現幻覺，證實這些未宣告的爬蟲確實在為 Perplexity 提供數據。Cloudflare 因此將 Perplexity 從已驗證機器人名單中除名。

另一個值得關注的發展是 OpenAI 在 2025 年 12 月 9 日悄悄修改了 ChatGPT-User 的合規政策，從文件中移除了 ChatGPT-User 遵守 robots.txt 的相關語言，僅保留 OAI-SearchBot 和 GPTBot 的合規承諾。這意味著用戶主動發起的 AI 瀏覽行為已不再受 robots.txt 約束。

儘管 robots.txt 的效力存疑，封鎖浪潮依然持續。Originality.ai 的追蹤數據顯示，前 1,000 大網站中封鎖 GPTBot 的比例從 2023 年 8 月的 9.1% 飆升至 2024 年 8 月的 35.7%。BuzzStream 2025 年的研究發現，前 100 大新聞網站中 79% 封鎖了至少一個 AI 訓練爬蟲，71% 封鎖了至少一個即時檢索爬蟲。截至 2025 年 12 月，全球約有 560 萬個網站 封鎖 GPTBot，580 萬個 封鎖 ClaudeBot。然而 Cloudflare Radar 的數據顯示，這波封鎖浪潮似乎已在 2025 年底 / 2026 年初趨於穩定。

出版商封鎖 AI 爬蟲的七層動機

網站管理者使用 robots.txt 封鎖 AI 爬蟲的動機是多層次的，從經濟利益到倫理原則交織在一起。

第一，著作權保護是最核心的驅動力。 截至 2025 年，已有超過 50 起與 AI 相關的著作權訴訟，其中紐約時報訴 OpenAI 案是指標性案件。紐約時報指控 OpenAI 未經授權使用數百萬篇文章訓練 ChatGPT，法官 Sidney Stein 於 2025 年 3 月駁回了 OpenAI 的撤案動議，核心著作權主張得以繼續審理。紐約時報 2024 年在生成式 AI 訴訟上花費了 1,080 萬美元。Condé Nast 聯合 The Atlantic、Forbes、The Guardian 等 14 家主要出版商控告 AI 新創公司 Cohere「大規模逐字複製」內容用於訓練模型。

第二，防止內容被用於 AI 訓練。 NeurIPS 2024 年發表的「Consent in Crisis」研究審計了 14,000 個網域，發現 2023 至 2024 年間，主要訓練語料庫 C4 中有超過 5% 的 token 已透過 robots.txt 被限制，其中最關鍵來源的 28% 以上被完全限制，新聞網站的 token 有近 45% 被完全限制。關鍵在於不可逆性——不同於搜尋引擎索引可以在更新 robots.txt 後被「遺忘」，一旦內容被編碼進 LLM 的神經網路，幾乎不可能移除。

第三，保護付費牆。 紐約時報在訴訟中指出，GPT 模型能產生「合成搜尋結果」，「複製的原始文章表達性內容遠多於傳統線上搜尋所顯示的」，實質上讓讀者繞過付費牆。Bing Chat 曾被記錄複製了紐約時報一篇文章「前 396 個字中除了 2 個字以外的所有內容」。

第四，維護流量與廣告收入。 AI 搜尋引擎每次搜尋送出的流量比傳統搜尋引擎少 96%。Cloudflare 2025 年 6 月的數據揭示了令人震驚的爬取-回饋比：OpenAI 每爬取 1,700 次才為網站帶回 1 次訪問，Anthropic 的比例更是高達 73,000:1。

第五，伺服器與基礎設施負擔。 維基媒體基金會報告自 2024 年 1 月以來，機器人和 AI 爬蟲導致基礎設施成本上升 50%。GPT 爬蟲可消耗高達 30 TB 的頻寬。部落格服務 Bear 在 2025 年 10 月因 AI 機器人流量而發生服務中斷。旅遊網站 Skift 即使在實施 robots.txt 封鎖後，每週仍被 GPTBot 爬取約 60,000 次。

第六，法律定位策略。 robots.txt 日益被用作法律證據——一種「禁止侵入」的信號，以強化著作權主張。在 Reddit 訴 Anthropic 案中，Reddit 援引其 robots.txt 和服務條款作為違約證據。不過在 Ziff Davis 訴 OpenAI 案中，法院裁定 robots.txt 並非 DMCA 下的「有效控制存取的技術措施」——它更像是一塊「告示牌」而非一道「屏障」。

第七，道德與同意原則。 News/Media Alliance 2024 年 2 月對 1,800 名美國選民的調查顯示，57% 支持補償出版商因 AI 訓練使用的內容，72% 支持政府對 AI 設置防護措施，77% 支持將 AI 未經許可複製新聞定為非法。

Agentic AI 讓封鎖變成一場打地鼠遊戲

當傳統 AI 爬蟲至少還會宣告自己的身份時，新一代的 Agentic AI 瀏覽器已經徹底改變了遊戲規則。OpenAI 的 Atlas 和 Perplexity 的 Comet（均於 2025 年底推出）是具有自主代理能力的「AI 瀏覽器」，對網站而言，它們與一個使用標準 Chrome 瀏覽器的真人完全無法區分。Columbia 新聞評論 2025 年 10 月的深度報導指出，這些 AI 瀏覽器在伺服器日誌中顯示為普通的 Chrome session，使得在不封鎖合法人類用戶的情況下幾乎不可能阻擋它們。

更關鍵的是 Agentic AI 在被封鎖後的替代策略。當 OpenAI 的 Atlas 發現無法直接存取某篇文章（例如 Ziff Davis 旗下 PCMag 的文章，因 Ziff Davis 正在控告 OpenAI），它會自動產生「複合式摘要」——從推文、轉載版本、其他媒體的引用和相關報導中拼湊出原始內容。線上研究專家 Henk van Ess 在 2025 年 7 月首次記錄了這一行為，將其描述為 AI 利用「數位麵包屑」逆向工程文章內容。CJR 的測試顯示，當被要求摘要一篇紐約時報文章時，Atlas 自動從衛報、華盛頓郵報、路透社和美聯社——其中三家已與 OpenAI 簽署授權協議——四個替代來源 生成了摘要。

Cloudflare 的測試也證實了這一模式：當隱匿爬蟲被成功封鎖後，Perplexity 會「使用其他數據來源——包括其他網站——來嘗試生成答案。然而，這些答案不夠具體且缺乏原始內容的細節。」

這種行為對原始網站的影響是雙重打擊：第一，使用者永遠不需要造訪原始出版商的網站；第二，AI 代理實質上將使用者的請求從「特定文章」重構為「一般主題」，改變了使用者最終閱讀的內容來源。CJR 精準地描述了這個兩難困境：「即使媒體機構成功阻止 AI 代理存取其內容，它面臨的是一個兩難困境：代理只是建議替代的報導內容。」

封鎖 AI 反而加速流量衰退的實證

「封鎖 AI 爬蟲是否導致流量下降」這個問題，目前最具分量的學術證據來自華頓商學院與羅格斯大學 2025 年 12 月發表的預印本研究。研究者 Hangcheng Zhao 與 Ron Berman 分析了 2022 年 10 月至 2025 年 6 月前 500 大新聞出版商的數據，發現封鎖 AI 爬蟲的前 30 大出版商總流量下降 23%，人類流量下降 14%。值得注意的是，流量顯著下降始於 2024 年 8 月（而非 ChatGPT 推出之初），部分出版商在經歷下降後撤回了封鎖規則。

然而，這個結論並非沒有爭議。廣告網路 Raptive 在 2025 年 7 月追蹤數千個創作者網站（2024 年 6 月至 2025 年 5 月）後發現，封鎖 AI 爬蟲的網站並無統計上顯著的流量變化，各組別的平均流量差異在 1% 以內。這一矛盾可能源於規模差異——華頓研究聚焦大型出版商，而 Raptive 的樣本主要為中小型創作者網站，暗示封鎖效應可能與網站規模高度相關。

無論是否因封鎖 AI 造成，整體出版業的流量危機是不爭的事實：

CNN：年度流量下降 27%-38%
Forbes：2025 年 7 月年度流量下降 50%
Business Insider：自然搜尋流量下降 55%（2022 年 4 月至 2025 年 4 月），裁員 21%
HuffPost：搜尋引薦流量減半
Chegg：非訂閱流量下降 49%
The Planet D（旅遊部落格）：流量下降 90%，最終關站
Charleston Crafted（居家改善部落格）：三個月內流量下降 70%，廣告收入下降 65%
DMG Media：報告點擊率下降 89%
2025 年 5 月，美國前 50 大新聞網站中有 37 家經歷了年度流量下降

在 SEO 排名方面，目前沒有證據顯示封鎖 AI 爬蟲會直接導致 Google 搜尋排名下降。Google 官方確認封鎖 Google-Extended 不會影響搜尋排名或 AI Overview 的收錄。Raptive 的分析也佐證了這一點。然而間接效應確實存在——如果網站封鎖了即時檢索機器人（如 OAI-SearchBot、ChatGPT-User），當使用者向 AI 助手詢問相關資訊時，該網站的內容將不會被引用，即使模型已從先前的訓練中學習過這些內容。Pluralsight 警告：「你實際上是把自己從一場對話中抽離了——而這場對話會在沒有你的情況下繼續進行。」當 AI 系統缺乏某品牌的第一手內容時，它們會「預設引用論壇、第三方網站或聚合摘要的資訊」。

四方博弈下的生態系統裂解

這場圍繞 AI 摘要與內容封鎖的衝突，實質上是一場涉及出版商、內容創作者、AI 平台與讀者的四方博弈，每一方都面臨各自的結構性困境。

對出版商而言，這是一場不對稱的戰爭。 全球前 500 大出版商來自 Google 的流量平均下降了 27%，約每月損失 6,400 萬次 訪問。新聞產業的自然流量從 2024 年中的每月 23 億次暴跌至 2025 年 5 月的不到 17 億次——損失超過 6 億次月訪問。面對這場危機，內容授權已成為重要的新收入來源。截至 2025 年底，已追蹤到 34 筆授權交易，平均規模約 2,400 萬美元，總承諾金額約 29.2 億美元。News Corp 與 OpenAI 的五年 2.5 億美元協議堪稱標竿——相當於其五年淨利潤的 2.5 倍。OpenAI 以 18 筆交易佔全球交易的 53%，其次是 Google（12%）和 Microsoft（9%）。然而 Press Gazette 對 280 名媒體領袖的調查顯示，受訪者預計未來三年流量將平均下降 43%，僅 38% 對新聞業前景有信心（2022 年為 60%）。

對獨立內容創作者而言，處境更為艱難。 小型食譜和健康部落客在 AI Overview 出現後，首頁流量損失高達 65%。科技評測和聯盟行銷網站的收入直線下滑，因為「最佳筆電推薦」等購買意圖關鍵字現在直接觸發 AI 推薦而不將使用者導向評測網站。與大型出版商不同，獨立創作者缺乏與 AI 公司談判授權交易的議價能力，形成了一個「雙層系統」——大型出版商透過個別交易獲得補償，而獨立創作者在流量下降中得不到任何補償機制。

AI 平台正試圖在擴張與合法性之間取得平衡。 Google 聲稱 AI Overview 發送的是「更高品質」的點擊，Adobe 的分析顯示 AI 引薦用戶的跳出率低 23%、停留時間多 41%。OpenAI 在授權方面最為積極，年化收入已超過 200 億美元。Microsoft 被出版商評為最友善的平台，其「按使用付費」模式獲得好評。Perplexity 則推出了最具創新性的收入分享模型——Comet Plus 計劃設立 4,250 萬美元的收入池，80% 歸出版商、20% 歸 Perplexity，但同時面臨 News Corp、紐約時報、大英百科全書等多家機構的訴訟。Digiday 2025 年 12 月的出版商評分卡總結：「所有平台都可以做得更多，沒有人拿到好成績。」

對讀者而言，AI 摘要帶來便利的同時也埋下隱憂。 AI 摘要提供了即時的資訊存取，但幻覺問題不容忽視——OpenAI 的 o3 模型在個人相關問題上的幻覺率高達 33%，o4-mini 更達 48%。僅有 6% 的使用者「非常信任」AI 摘要。更深層的風險在於資訊同質化：AI 摘要傾向於將多元觀點壓縮為單一合成答案，剝離了競爭性觀點、細微差異和少數意見。AI 生成內容平均比人類內容少 29% 的字數，引用數據來源的頻率僅為人類的 32%。學者 Andrew J. Peterson 2025 年提出的「知識崩塌」概念警告，廣泛依賴遞迴 AI 系統可能導致可存取知識的漸進性收窄。

從打地鼠到建立新規則

現行的 robots.txt 體系本質上是一個 1994 年設計的「榮譽系統」，在面對 2025 年的 AI 生態時已經力不從心。業界正在探索多種替代方案：

技術層面，Cloudflare 2025 年推出的 Robotcop 將 robots.txt 規則轉化為在網路層強制執行的 WAF 規則，從「請求遵守」升級為「主動拒絕」。反制工具如 Nepenthes 和 Iocaine 則採取「蜜罐」策略，將爬蟲誘入無限的假內容迷宮。協議層面，TDMRep（W3C 社群小組開發的文字與數據探勘保留協議）提供了比 robots.txt 更精細的語義控制，支援基於目的的退出機制並包含授權聯繫資訊。Web Bot Auth（Cloudflare 提議的 W3C 標準）旨在提供爬蟲身份的加密驗證。Really Simple Licensing（RSL） 則讓內容授權可以直接嵌入 robots.txt，已有 50 多家出版商加入，但尚無主要 AI 公司承諾遵守。

商業模式層面，TollBit 與 Cloudflare 合作推出的「按爬取付費」模式讓出版商能對 AI 爬蟲收費而非僅僅封鎖，ProRata 的 50/50 收入分成模式已吸引 The Atlantic、Time、Fortune 等 100 多家合作夥伴。

監管層面，英國 CMA 正在審查相關投訴，歐盟出版商已提出反壟斷申訴，美國對 Google 的反壟斷案正待出版商保護措施，澳洲的《新聞媒體議價法》則提供了先例模型。

結論：封鎖是防禦，但不是策略

這場 AI 與內容生態的衝突揭示了三個核心洞察。其一，robots.txt 作為封鎖工具已經失效——它既無法阻止決心繞過的 AI 系統，也無法區分訓練爬取與有益的檢索引用，更無法應對偽裝成人類瀏覽器的 Agentic AI。其二，封鎖本身正在製造一個自我實現的預言——出版商為保護內容而封鎖 AI，結果使自己從 AI 主導的資訊發現管道中消失，讀者轉向替代來源，流量進一步下降，形成惡性循環。其三，整個生態系統面臨一個根本性的悖論：AI 系統需要出版商的內容來維持品質，出版商需要搜尋能見度來維持營運，讀者從 AI 摘要中受益但品質取決於正在被削弱的原始來源——三方互相依存卻彼此侵蝕。

未來的出路不在於更高的牆，而在於更好的規則。從「封鎖或開放」的二元對立，轉向「有條件的授權存取」——透過加密身份驗證、按使用付費、標準化授權協議——這可能是唯一能讓所有利害關係人存活的路徑。正如 Cloudflare 執行長 Matthew Prince 所言：「如果網際網路要在 AI 時代存活，我們需要給出版商他們應得的控制權，並建立一個對所有人都有效的新經濟模型。」這場賽跑的時間窗口正在迅速關閉。

含 AI 應用內容

留言

碳問矽答

0會員

5內容數

碳基的好奇心，矽基的研究力。這裡是人類與 AI 協作的知識實驗場。我負責提問與策展，AI 負責深度研究與交叉比對。每篇內容都是人機對話後的結晶——不是 AI 原始輸出，而是人力無法獨力達成的研究密度。所有內容皆透明標示 AI 協作方式。這不是取代思考，是擴增思考。

碳問矽答的其他內容