2024-10-10|閱讀時間 ‧ 約 0 分鐘

如何「禁止 AI 模型」爬取您網站的內容進行 AI 訓練?

    raw-image

    如果你想要「禁止 AI 模型」爬取您網站的內容進行 AI 訓練


    那就可以參考 threads 的 robots.txt 檔案


    robots.txt 是一個放在網站根目錄的檔案


    大多數的合法爬蟲,都會尊重網站所寫的規定


    可以看到,threads 平台禁止了多數 AI 模型的專用爬蟲,


    因為對 threads 來說,創作者們的內容,就是平台的最大資產,


    threads 不擋搜尋引擎爬蟲,但擋了 AI 模型訓練爬蟲,


    這兩種爬蟲是分開的。


    因為搜尋引擎可以帶來流量,模型訓練爬蟲則沒什麼益處


    以下介紹圖中各個「爬蟲名稱」的意思:


    (1) Applebot-Extended


    用於訓練 Apple 的基礎 LLM 模型,為 Apple 產品(包括 Apple Intelligence、服務和開發人員工具)的生成式 AI 功能提供支援。


    (2) ClaudeBot


    是 Anthropic 公司開發的語言模型 Claude,此項爬蟲可能會用於從網絡中獲取數據進行模型訓練。


    (3) Google-Extended


    是 Google 的爬蟲之一,專門為 AI 模型和機器學習的額外數據收集目的設計。這與傳統的 Googlebot 不同,它專用於訓練 AI 模型。


    谷歌在一篇部落格文章中表示:


    「今天我們宣布推出 Google-Extended,這是一種新的控制方式,網路出版商透過使用 Google-Extended 來控制爬蟲對網站內容的訪問,來管理其網站是否願意助於改進 Bard 和 Vertex AI 生成API,包括這些產品的未來幾代模型。Google-Extended 不會影響網站在 Google 搜尋中的收錄或排名。」


    所以你可以阻擋 Google-Extended,但千萬別阻擋 Googlebot


    擋了 Googlebot 你的內容就不會再被 Google 索引了。


    (4) GPTBot


    是 OpenAI 的爬蟲,專門用於為 GPT 模型(如 GPT-4)收集數據。OpenAI 承認 GPTBot 會爬取公開的網頁以幫助改進其語言模型。


    (5) PetalBot


    是由華為(Huawei)的搜索引擎 Petal Search 使用的爬蟲。它與全球搜索引擎類似,爬取網站用於搜索引擎索引,但同樣可能用於 AI 數據集構建。


    (6) Viberbot


    是 Viber(通訊應用)的爬蟲,可能用於與其聊天機器人、智能搜索和其他服務相關的數據采集。


    (7) Yandex


    是俄羅斯最大的搜索引擎。它的爬蟲類似於 Googlebot,負責爬取網頁以進行搜索引擎索引,同時也可能用於 Yandex 的 AI 和數據分析相關項目。


    歡迎追蹤,一起累積行銷知識 #創業學行銷

    分享至
    成為作者繼續創作的動力吧!
    © 2024 vocus All rights reserved.