如何「禁止 AI 模型」爬取您網站的內容進行 AI 訓練？

極致數位行銷 -成效型整合行銷專家

更新於 2024/10/10發佈於 2024/10/10閱讀時間約 4 分鐘

如果你想要「禁止 AI 模型」爬取您網站的內容進行 AI 訓練

那就可以參考 threads 的 robots.txt 檔案

robots.txt 是一個放在網站根目錄的檔案

大多數的合法爬蟲，都會尊重網站所寫的規定

可以看到，threads 平台禁止了多數 AI 模型的專用爬蟲，

因為對 threads 來說，創作者們的內容，就是平台的最大資產，

threads 不擋搜尋引擎爬蟲，但擋了 AI 模型訓練爬蟲，

這兩種爬蟲是分開的。

因為搜尋引擎可以帶來流量，模型訓練爬蟲則沒什麼益處

以下介紹圖中各個「爬蟲名稱」的意思:

(1) Applebot-Extended

用於訓練 Apple 的基礎 LLM 模型，為 Apple 產品（包括 Apple Intelligence、服務和開發人員工具）的生成式 AI 功能提供支援。

(2) ClaudeBot

是 Anthropic 公司開發的語言模型 Claude，此項爬蟲可能會用於從網絡中獲取數據進行模型訓練。

(3) Google-Extended

是 Google 的爬蟲之一，專門為 AI 模型和機器學習的額外數據收集目的設計。這與傳統的 Googlebot 不同，它專用於訓練 AI 模型。

谷歌在一篇部落格文章中表示：

「今天我們宣布推出 Google-Extended，這是一種新的控制方式，網路出版商透過使用 Google-Extended 來控制爬蟲對網站內容的訪問，來管理其網站是否願意助於改進 Bard 和 Vertex AI 生成API，包括這些產品的未來幾代模型。Google-Extended 不會影響網站在 Google 搜尋中的收錄或排名。」

所以你可以阻擋 Google-Extended，但千萬別阻擋 Googlebot

擋了 Googlebot 你的內容就不會再被 Google 索引了。

(4) GPTBot

是 OpenAI 的爬蟲，專門用於為 GPT 模型（如 GPT-4）收集數據。OpenAI 承認 GPTBot 會爬取公開的網頁以幫助改進其語言模型。

(5) PetalBot

是由華為（Huawei）的搜索引擎 Petal Search 使用的爬蟲。它與全球搜索引擎類似，爬取網站用於搜索引擎索引，但同樣可能用於 AI 數據集構建。

(6) Viberbot

是 Viber（通訊應用）的爬蟲，可能用於與其聊天機器人、智能搜索和其他服務相關的數據采集。

(7) Yandex

是俄羅斯最大的搜索引擎。它的爬蟲類似於 Googlebot，負責爬取網頁以進行搜索引擎索引，同時也可能用於 Yandex 的 AI 和數據分析相關項目。

歡迎追蹤，一起累積行銷知識 #創業學行銷

極致數位行銷的沙龍

5會員

122內容數

與您分享台灣行銷代理商的真實日常&行銷知識 - 「用心服務每位客戶，滿足客戶所有客製化行銷需求，我們的服務理念。」業界17年專業數位行銷公司，有別於市面行銷公司，我們不做外包廠商，要做「專屬於您品牌」的兼職行銷團隊！專營「品牌知名塑造、數位廣告操盤、社群內容經營、數據分析追蹤、Martech科技行銷」

留言0

查看全部

發表第一個留言支持創作者！

極致數位行銷的沙龍的其他內容

等了一段時間，終於等到這個帳號SEO「突破前高」了

等了一段時間，終於等到這個帳號「突破前高」了和買股票一樣，最期待的，就是突破區間的時候其實經營 SEO，和經營 Youtube 頻道有點像內容為王，所以必須一直產出好的內容，那些說不用產內容，排名就能增加的，都是不正常的作法短期可以，但長期想一直這樣玩，是不可

【Meta 執行長祖克柏，近期分享了二十年創業心得】

【Meta 執行長祖克柏，近期分享了二十年創業心得】一、初創公司對於試錯的重要性在這場與觀眾的對話中，祖克柏提出了一個看似反常識的觀點：對於初創公司來說，不斷進行「試錯」是通向成功的唯一捷徑。祖克柏強調，試錯並非只是商業宣傳，而是他的親身經驗。他認為，只有在經歷過失敗後，才能真正

Google 的搜尋廣告收入市佔比，已越來越低，明年將跌破 50%

根據華爾街日報的報導 Google 的搜尋廣告收入市佔比，已越來越低明年將跌破 50%，原因是什麼？ (1) 人們使用生成式人工智慧找尋答案 (2) 使用 Tiktok 進行搜尋的人越來越多 (3) 許多消費者習慣在亞馬遜直接搜尋產品 (4) 使用 Perple

如何快速觸及對你有興趣的新客？

如何快速觸及對你有興趣的新客？一個簡單直接的方法，就是建立「粉專類似受眾」粉專受眾指的是曾經與你粉專互動過的人這些人會與你互動，必定對你有點興趣但如果直接對這些人投放廣告，人數終究太少因此，可將這些人，打包建立成「粉專類似受眾」臉書會根據這些人

YouTube Shorts 可上傳3分鐘的影片了

Youtube Shorts 可上傳3分鐘的影片了原本最長是 60 秒，現在可以到 3 分鐘之前常常有創作者批評，60 秒太短根本做不出什麼好內容都是無腦、吸睛的內容，最能吸引曝光但調整至 3 分鐘後，限制解除，就能產出更多有價值的內容了這對知識型創作者

threads 不只臉書化，甚至還超越臉書

聽到有人說，threads 上知識型內容的觸及率沒有以前那麼高這是必然的，因為 threads 開始臉書化了 threads 是個以互動數為重的平台互動性 >> 主題性例如為我對行銷相關貼文，點了幾十個讚但卻比不上我對颱風相關貼文，點了一個讚

等了一段時間，終於等到這個帳號SEO「突破前高」了

【Meta 執行長祖克柏，近期分享了二十年創業心得】

Google 的搜尋廣告收入市佔比，已越來越低，明年將跌破 50%

如何快速觸及對你有興趣的新客？

YouTube Shorts 可上傳3分鐘的影片了

threads 不只臉書化，甚至還超越臉書

你可能也想看

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

這是一篇介紹如何使用AI來生成貓貓圖片的文章，作者透過幾個軟體的使用經驗，分享了AI生成圖片的效果以及注意事項。文章內容豐富，並且有各種關鍵字和描述，可以吸引潛在讀者。

#軟體 #學習 #ChatGPT

是我啦，我好學啦

2024/07/24

AI可以讓你的作品變更好看嗎？答案是「有困難」

AI繪圖要廣泛用於商用還有一大段路，還需要依賴人類的經驗判斷、調整，為什麼呢？

#AI繪圖 #midjourney繪圖 #AI套現

Darren的沙龍

2024/07/19

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT #AlphaGo #人工智慧