如果你想要「禁止 AI 模型」爬取您網站的內容進行 AI 訓練
那就可以參考 threads 的 robots.txt 檔案
robots.txt 是一個放在網站根目錄的檔案
大多數的合法爬蟲,都會尊重網站所寫的規定
可以看到,threads 平台禁止了多數 AI 模型的專用爬蟲,
因為對 threads 來說,創作者們的內容,就是平台的最大資產,
threads 不擋搜尋引擎爬蟲,但擋了 AI 模型訓練爬蟲,
這兩種爬蟲是分開的。
因為搜尋引擎可以帶來流量,模型訓練爬蟲則沒什麼益處
以下介紹圖中各個「爬蟲名稱」的意思:
(1) Applebot-Extended
用於訓練 Apple 的基礎 LLM 模型,為 Apple 產品(包括 Apple Intelligence、服務和開發人員工具)的生成式 AI 功能提供支援。
(2) ClaudeBot
是 Anthropic 公司開發的語言模型 Claude,此項爬蟲可能會用於從網絡中獲取數據進行模型訓練。
(3) Google-Extended
是 Google 的爬蟲之一,專門為 AI 模型和機器學習的額外數據收集目的設計。這與傳統的 Googlebot 不同,它專用於訓練 AI 模型。
谷歌在一篇部落格文章中表示:
「今天我們宣布推出 Google-Extended,這是一種新的控制方式,網路出版商透過使用 Google-Extended 來控制爬蟲對網站內容的訪問,來管理其網站是否願意助於改進 Bard 和 Vertex AI 生成API,包括這些產品的未來幾代模型。Google-Extended 不會影響網站在 Google 搜尋中的收錄或排名。」
所以你可以阻擋 Google-Extended,但千萬別阻擋 Googlebot
擋了 Googlebot 你的內容就不會再被 Google 索引了。
(4) GPTBot
是 OpenAI 的爬蟲,專門用於為 GPT 模型(如 GPT-4)收集數據。OpenAI 承認 GPTBot 會爬取公開的網頁以幫助改進其語言模型。
(5) PetalBot
是由華為(Huawei)的搜索引擎 Petal Search 使用的爬蟲。它與全球搜索引擎類似,爬取網站用於搜索引擎索引,但同樣可能用於 AI 數據集構建。
(6) Viberbot
是 Viber(通訊應用)的爬蟲,可能用於與其聊天機器人、智能搜索和其他服務相關的數據采集。
(7) Yandex
是俄羅斯最大的搜索引擎。它的爬蟲類似於 Googlebot,負責爬取網頁以進行搜索引擎索引,同時也可能用於 Yandex 的 AI 和數據分析相關項目。
歡迎追蹤,一起累積行銷知識 #創業學行銷