更新於 2024/11/14閱讀時間約 3 分鐘

如何用Google瀏覽器的開發者工具(F12),模擬搜尋引擎的爬蟲蜘蛛抓取網頁的狀況

Chrome 的開發者工具中,你可以模擬 Googlebot 或其他搜尋引擎爬蟲的網頁抓取情況。以下是具體步驟:

  1. 開啟開發者工具:在 Chrome 中按 F12 或右鍵點擊網頁選擇「檢查」。
  2. 設置 User-Agent
    • 在開發者工具中,然後右上角的三個點選擇「更多工具」(more tools)>「網路狀況」(Network conditions),切換到「網路」(Network)面板。
    • 在 User Agent 下方,取消「使用瀏覽器預設設定」(Use browser default),然後從下拉選單中選擇「Googlebot」。
raw-image


3.檢查頁面顯示和回應

  • 選定 User-Agent 後,重新整理頁面。
  • 您可以在 Network 分頁中查看頁面的回應狀態碼(如 200、404、403 等)以及其他網路請求的細節。
  • 如果網站有設定 robots.txt 限制,可能會看到特定爬蟲無法訪問某些頁面。



如何檢查網站的 robots.txt 文件

  • 在瀏覽器網址欄直接輸入 yourdomain.com/robots.txt,查看網站的 robots.txt 設定,檢查是否有任何爬蟲被阻擋的設定。

假設如果 robots.txt 文件內只有這行:

User-agent: *

  • 那就代表網站對所有爬蟲(User-agent: *)不設任何限制,也就是允許所有爬蟲訪問網站的全部內容。通常來說,robots.txt 的基本結構是指定哪些爬蟲可以或不能訪問特定的頁面或資料夾。例如:
    • 如果您想讓所有爬蟲都可以訪問,文件內只需要 User-agent: * 即可(如您現在的情況)。
    • 若要限制特定頁面的訪問,則會加入 Disallow 規則,例如:
      User-agent: *
      Disallow: /private/
      上述設定表示所有爬蟲都禁止訪問 /private/ 路徑。

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.