如何「禁止 AI 模型」爬取您網站的內容進行 AI 訓練?

閱讀時間約 4 分鐘
raw-image

如果你想要「禁止 AI 模型」爬取您網站的內容進行 AI 訓練


那就可以參考 threads 的 robots.txt 檔案


robots.txt 是一個放在網站根目錄的檔案


大多數的合法爬蟲,都會尊重網站所寫的規定


可以看到,threads 平台禁止了多數 AI 模型的專用爬蟲,


因為對 threads 來說,創作者們的內容,就是平台的最大資產,


threads 不擋搜尋引擎爬蟲,但擋了 AI 模型訓練爬蟲,


這兩種爬蟲是分開的。


因為搜尋引擎可以帶來流量,模型訓練爬蟲則沒什麼益處


以下介紹圖中各個「爬蟲名稱」的意思:


(1) Applebot-Extended


用於訓練 Apple 的基礎 LLM 模型,為 Apple 產品(包括 Apple Intelligence、服務和開發人員工具)的生成式 AI 功能提供支援。


(2) ClaudeBot


是 Anthropic 公司開發的語言模型 Claude,此項爬蟲可能會用於從網絡中獲取數據進行模型訓練。


(3) Google-Extended


是 Google 的爬蟲之一,專門為 AI 模型和機器學習的額外數據收集目的設計。這與傳統的 Googlebot 不同,它專用於訓練 AI 模型。


谷歌在一篇部落格文章中表示:


「今天我們宣布推出 Google-Extended,這是一種新的控制方式,網路出版商透過使用 Google-Extended 來控制爬蟲對網站內容的訪問,來管理其網站是否願意助於改進 Bard 和 Vertex AI 生成API,包括這些產品的未來幾代模型。Google-Extended 不會影響網站在 Google 搜尋中的收錄或排名。」


所以你可以阻擋 Google-Extended,但千萬別阻擋 Googlebot


擋了 Googlebot 你的內容就不會再被 Google 索引了。


(4) GPTBot


是 OpenAI 的爬蟲,專門用於為 GPT 模型(如 GPT-4)收集數據。OpenAI 承認 GPTBot 會爬取公開的網頁以幫助改進其語言模型。


(5) PetalBot


是由華為(Huawei)的搜索引擎 Petal Search 使用的爬蟲。它與全球搜索引擎類似,爬取網站用於搜索引擎索引,但同樣可能用於 AI 數據集構建。


(6) Viberbot


是 Viber(通訊應用)的爬蟲,可能用於與其聊天機器人、智能搜索和其他服務相關的數據采集。


(7) Yandex


是俄羅斯最大的搜索引擎。它的爬蟲類似於 Googlebot,負責爬取網頁以進行搜索引擎索引,同時也可能用於 Yandex 的 AI 和數據分析相關項目。


歡迎追蹤,一起累積行銷知識 #創業學行銷

    與您分享台灣行銷代理商的真實日常&行銷知識 - 「用心服務每位客戶,滿足客戶所有客製化行銷需求,我們的服務理念。」 業界17年專業數位行銷公司,有別於市面行銷公司,我們不做外包廠商,要做「專屬於您品牌」的兼職行銷團隊! 專營「品牌知名塑造、數位廣告操盤、社群內容經營、數據分析追蹤、Martech科技行銷」
    留言0
    查看全部
    發表第一個留言支持創作者!
    等了一段時間,終於等到這個帳號「突破前高」了 和買股票一樣,最期待的,就是突破區間的時候 其實經營 SEO,和經營 Youtube 頻道有點像 內容為王,所以必須一直產出好的內容, 那些說不用產內容,排名就能增加的,都是不正常的作法 短期可以,但長期想一直這樣玩,是不可
    【Meta 執行長祖克柏,近期分享了二十年創業心得】 一、初創公司對於試錯的重要性 在這場與觀眾的對話中,祖克柏 提出了一個看似反常識的觀點:對於初創公司來說,不斷進行「試錯」是通向成功的唯一捷徑。祖克柏 強調,試錯並非只是商業宣傳,而是他的親身經驗。他認為,只有在經歷過失敗後,才能真正
    根據華爾街日報的報導 Google 的搜尋廣告收入市佔比,已越來越低 明年將跌破 50%,原因是什麼? (1) 人們使用生成式人工智慧找尋答案 (2) 使用 Tiktok 進行搜尋的人越來越多 (3) 許多消費者習慣在亞馬遜直接搜尋產品 (4) 使用 Perple
    如何快速觸及對你有興趣的新客? 一個簡單直接的方法,就是建立「粉專類似受眾」 粉專受眾 指的是 曾經與你粉專互動過的人 這些人會與你互動,必定對你 有點興趣 但如果直接對這些人投放廣告,人數終究太少 因此,可將這些人,打包建立成「粉專類似受眾」 臉書 會根據這些人
    Youtube Shorts 可上傳3分鐘的影片了 原本最長是 60 秒,現在可以到 3 分鐘 之前常常有創作者批評,60 秒太短 根本做不出什麼好內容 都是 無腦、吸睛的內容,最能吸引曝光 但調整至 3 分鐘後,限制解除,就能產出更多 有價值的內容了 這對知識型創作者
    聽到有人說,threads 上知識型內容的觸及率 沒有以前那麼高 這是必然的,因為 threads 開始臉書化了 threads 是個以 互動數 為重 的平台 互動性 >> 主題性 例如為我對 行銷相關貼文,點了 幾十個讚 但卻比不上我對 颱風相關貼文,點了一個讚
    等了一段時間,終於等到這個帳號「突破前高」了 和買股票一樣,最期待的,就是突破區間的時候 其實經營 SEO,和經營 Youtube 頻道有點像 內容為王,所以必須一直產出好的內容, 那些說不用產內容,排名就能增加的,都是不正常的作法 短期可以,但長期想一直這樣玩,是不可
    【Meta 執行長祖克柏,近期分享了二十年創業心得】 一、初創公司對於試錯的重要性 在這場與觀眾的對話中,祖克柏 提出了一個看似反常識的觀點:對於初創公司來說,不斷進行「試錯」是通向成功的唯一捷徑。祖克柏 強調,試錯並非只是商業宣傳,而是他的親身經驗。他認為,只有在經歷過失敗後,才能真正
    根據華爾街日報的報導 Google 的搜尋廣告收入市佔比,已越來越低 明年將跌破 50%,原因是什麼? (1) 人們使用生成式人工智慧找尋答案 (2) 使用 Tiktok 進行搜尋的人越來越多 (3) 許多消費者習慣在亞馬遜直接搜尋產品 (4) 使用 Perple
    如何快速觸及對你有興趣的新客? 一個簡單直接的方法,就是建立「粉專類似受眾」 粉專受眾 指的是 曾經與你粉專互動過的人 這些人會與你互動,必定對你 有點興趣 但如果直接對這些人投放廣告,人數終究太少 因此,可將這些人,打包建立成「粉專類似受眾」 臉書 會根據這些人
    Youtube Shorts 可上傳3分鐘的影片了 原本最長是 60 秒,現在可以到 3 分鐘 之前常常有創作者批評,60 秒太短 根本做不出什麼好內容 都是 無腦、吸睛的內容,最能吸引曝光 但調整至 3 分鐘後,限制解除,就能產出更多 有價值的內容了 這對知識型創作者
    聽到有人說,threads 上知識型內容的觸及率 沒有以前那麼高 這是必然的,因為 threads 開始臉書化了 threads 是個以 互動數 為重 的平台 互動性 >> 主題性 例如為我對 行銷相關貼文,點了 幾十個讚 但卻比不上我對 颱風相關貼文,點了一個讚
    你可能也想看
    Google News 追蹤
    Thumbnail
    這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
    Thumbnail
    美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
    Thumbnail
    Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
    Thumbnail
    AI生成圖,做文字描述時,會出現文字選項,我就隨意點選文字,組成文字的句子是沒有意義的,再由AI去生成圖。 圖片的生成主要跟Style的選擇有關,不同的Style會產生不同的結果。 這樣的過程,很有趣,像玩遊戲。 然後,我再從這些圖片中,想像故事的內容,寫成一篇文章或故事。
    Thumbnail
    本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
    Thumbnail
    這是一篇介紹如何使用AI來生成貓貓圖片的文章,作者透過幾個軟體的使用經驗,分享了AI生成圖片的效果以及注意事項。文章內容豐富,並且有各種關鍵字和描述,可以吸引潛在讀者。
    Thumbnail
    AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
    Thumbnail
    本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
    Thumbnail
    科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
    Thumbnail
    AI是人創造的,當然也會有人性,想偷懶並不奇怪
    Thumbnail
    最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
    Thumbnail
    如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
    Thumbnail
    AI幫助創作者進行內容分析,提供發布設定的最佳建議,包括標題設定、文章分類、本文摘要、瀏覽縮圖和關鍵字設定。
    Thumbnail
    這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
    Thumbnail
    美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
    Thumbnail
    Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
    Thumbnail
    AI生成圖,做文字描述時,會出現文字選項,我就隨意點選文字,組成文字的句子是沒有意義的,再由AI去生成圖。 圖片的生成主要跟Style的選擇有關,不同的Style會產生不同的結果。 這樣的過程,很有趣,像玩遊戲。 然後,我再從這些圖片中,想像故事的內容,寫成一篇文章或故事。
    Thumbnail
    本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
    Thumbnail
    這是一篇介紹如何使用AI來生成貓貓圖片的文章,作者透過幾個軟體的使用經驗,分享了AI生成圖片的效果以及注意事項。文章內容豐富,並且有各種關鍵字和描述,可以吸引潛在讀者。
    Thumbnail
    AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
    Thumbnail
    本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
    Thumbnail
    科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
    Thumbnail
    AI是人創造的,當然也會有人性,想偷懶並不奇怪
    Thumbnail
    最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
    Thumbnail
    如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
    Thumbnail
    AI幫助創作者進行內容分析,提供發布設定的最佳建議,包括標題設定、文章分類、本文摘要、瀏覽縮圖和關鍵字設定。