方格精選

SEO 指南第7講 - 網頁本身的 meta 元資料以及 robots.txt(上)

更新於 發佈於 閱讀時間約 8 分鐘
對許多網站編輯或是產品經理來說,我們經常會注意要 SEO 的點是內容、連結、meda 原資料描述、圖片名稱優化、網站架構優化這些細節,但是很少人會關注 robots.txt、robots 標記元資料、XML 網站地圖以及 X-Robots 標記這些更細微的內容,而這很可能會讓你的網站怎麼樣也上不到成為 SERP 第一名的關鍵。為什麼呢?恐怕問題來自於 robots.txt 這一類的內容。想多了解嗎?來吧!

什麼是 robots.txt?

robots.txt 如同我之前說的,非常像是站長或網站管理員與搜尋引擎的溝通管道,你可以把 robots.txt 視為一個 walkie talkie,你告訴搜尋引擎要查找哪些網頁,哪些網頁不要找,都透過 robots.txt 告訴搜尋引擎,而且這個檔案涉及到所有的搜尋引擎,讓搜尋引擎乖乖聽話,完成站長或網站管理員的要求。
理論上,robots.txt 是一個文本格式的檔案,robots.txt 放在網站的根目錄,搜尋引擎可以在根目錄找到這個檔案,然後根據站長或網站管理員的要求執行索引。

robots.txt 為何那麼重要?

就像前面說的,robots.txt 會告訴搜尋引擎哪些文件夾或網頁要索引,哪些不需要進行索引,所以每個網站都需要有 robots.txt 做為指引搜尋引擎的重要方向。因此在 Google Search Console 這個提供給站長或者網站管理員管理網站的工具當中,就有 robots.txt 的確認內容。當你輸入了 robots.txt,並且經過搜尋引擎確認無誤之後,搜尋引擎就會加速網站的索引過程。
robots.txt 並不是一個難以查找的檔案,事實上,所有網站都可以找到 robots.txt 這個檔案,也就是說你無法隱藏或是為這個檔案加密,它是眾所週知的一個文本檔案;而且無論網站做的好不好,只要有這個 robots.txt,搜尋引擎就可以根據你的指示查找網站上最有價值的網頁。所以如果你想找到某個網站的 robots.txt,只要直接輸入 www.example-website.com/robots.txt 就可以找到了。
如果你的網站上還沒有 robots.txt,並不代表搜尋引擎不會對你的網站進行索引,它依然會進行索引,只是在網站上有些你不想讓搜尋引擎找到的內容(如:電子商務網站上的內部測試頁、或是還沒有完成的網頁、或是不想給外部用戶看到的網頁),就很可能一覽無遺。

robots.txt 的入門檔案包括哪些?

首先,當你要準備一個 robots.txt 的時候,可以打開記事本,然後儲存為 UTF-8 格式的文字檔。並且請記得完成後,要請營運人員放在網站的根部,然後在瀏覽器當中輸入 www.example-website.com/robots.txt,確認看到這個檔案的內容,安裝的動作就算完成了。
就像 XML 網站地圖一樣,robots.txt 也有限制,它的限制包括:
  1. 只有 txt 文本格式,而且必須以 UTF-8 的格式儲存
  2. 設定的規則不能超過 1024 個規則
  3. 整個檔案必須小於 500KB
  4. robots.txt 只能有一個,不能有多個版本或是多份內容
如果你在 robots.txt 放le UTF-8 以外的格式,那會怎麼樣呢?嗯,首先搜尋引擎會忽略這些非 UTF-8格式的內容,只執行屬於 UTF-8 的內容,而且搜尋引擎也不會告訴你哪裡是寫錯的。(但是搜尋引擎的工具如 Google Search Console 會)
整個 robots.txt 內容可以指定給單一或多個搜尋引擎,透過下指令的方式讓搜尋引擎根據你的要求執行工作。下指令的時候,你可以指定目錄名稱、操作要求、以及下指令的值做為一個指令。這些指令包含:disallow(不允許)哪個搜尋引擎執行哪些操作;或是 allow(允許)哪個或哪些搜尋引擎針對特定的目錄進行操作。比如:允許哪一個搜尋引擎對哪些內容進行索引,哪些內容不准進行索引、執行 XML 網站地圖等作業。在檔案中,你可以添加一些說明,在說明文字前方,要記得加上 # 做為說明使用。
那麼哪些網頁或目錄是我們不希望搜尋引擎找到的呢?我儘量把相關的內容寫在下方,供你們參考:
  • 內容重複的網頁
  • 搜尋結果頁
  • 動態產品與服務頁面
  • 購物車聊天頁面
  • 謝謝頁面
OK。講了那麼多,還沒有看到 robots.txt 的真面目,現在就揭示給各位看看一個 robots.txt 真正的樣貌長什麼樣子:
104 人力銀行的 robots.txt 截圖
上方是台灣 104 人力銀行的 robots.txt 檔案內容。從這裡我們就可以看到網站管理員不允許搜尋引擎對特定的目錄進行索引。

如何使用 robots.txt

我們拿上面提及的 104 人力銀行網站當中的 robots.txt 來做例子好了。在這個網站中,它禁止了所有搜尋引擎(user-agent: *)訪問下方的這些目錄。
那可不可以只對特定的搜尋引擎設定條件呢?當然是可以的。robots.txt 的彈性很大,幾乎適用於各類搜尋引擎,所以你可以批次指定,也可以只針對特定的搜尋引擎指定條件。當你希望不要讓搜尋引擎對某個目錄進行索引的時候,只需要輸入 disallow: /xxx (xxx 指的是目錄名稱)然後上傳到伺服器更新就可以了。這裡再舉一個例子:好市多網站的 robots.txt 如下:
好市多網站的 robots.txt 截圖
發現了嗎?好市多的 robots.txt 裡面提供的規則就比較多了,它不允許 gigabot 索引所有的網頁;但它允許所有搜尋引擎查看它的網站地圖,但不允許搜尋引擎對checkout 等這些頁面進行索引。

robots.txt 會出現的錯誤

robots.txt 看起來很簡單,但是寫起來還是會有機會發生錯誤的。以下就是經常會出現的錯誤,提供給你參考:
檔名顯示為大寫文字
在輸入檔名的時候,只能用 robots.txt,而不能用 ROBOTS.txt 或是 Robots.txt 的檔案名稱。
存檔時輸入錯誤的檔名
儲存檔名的時候,要注意檔案名稱,不要用 robot.txt,而要使用 robots.txt
格式指引的寫法不正確
舉例來說:如果要設定 Googlebot 不允許索引所有的頁面,那麼這樣的寫法應該是
User-agent: Googlebot
Disallow:/
而不應該是
Disallow: Googlebot
在一個命令之下輸入多個目錄
如果你想在一個命令下指定多個目錄,那麼應該是一個命令,指定到一個目錄之下,而不應該寫成 Disallow: /css /images /cgi-bin
忘了輸入 user-agent 之後的名稱
 以下這種寫法是錯誤的:
User-agent:
Disallow:
正確的寫法應該是:
User-agent:*
Disallow:
在檔案內使用了大寫字
除了不能用大寫字寫檔案名稱之外,在檔案內的文字描述也請改成用小寫文字替代。例如這樣的寫法是錯誤的:
USER-AGENT: GOOGLE
DISALLOW:
在主站目錄使用鏡像網站
雖然對絕大部分的用戶來說,使用 https://www.site.com、https://site.com、http://site.com 這幾種展現方式都是一樣的,但對搜尋引擎來說就不一樣。所以如果我們指定了主站目錄,但用了鏡像網站的頁面,就需要注意輸入的內容是否正確。
在目錄當中列舉一個目錄當中的多個頁面
robots.txt 指定的都是目錄,而不是單一的網頁,單一網頁的方式我會在下一階段單獨說明。
404重定向錯誤
在我寫這篇稿子的時候,我找了很多網站,但許多網站都沒有添加 robots.txt,因此這個情況下,搜尋引擎可能還是會場時訪問 robots.txt 檔案。因此建議各位創建一個空的 robots.txt,這樣就可以避免出現“404 未找到”頁面的問題發生。
User-agent 指定內容與 host 網站不同
比如說,你設定的 user-agent 是所有搜尋引擎(事實上應該是搜尋蜘蛛機器人),那麼如果你這樣設定,就會發生錯誤。
這一期先寫到這裡,我們在下一期說明,如果要阻擋索引單獨的頁面,我們該怎麼做才好。請等待下一期咯!
avatar-img
10會員
21內容數
常常有人跟我說,SEO 只是做網站的一個技巧。但其實關係重大,它深遠的影響跟你公司的品牌息息相關。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
湖南落子的沙龍 的其他內容
在上一節我介紹了網站架構,當網站架構出現了之後,搜尋引擎怎麼會知道我們的網站發生變化了呢?就像是你換了新房子,想找好友來暖房,那麼好友怎麼知道你家怎麼走呢?這節就是來告訴你,我們如何幫搜尋引擎畫網站地圖。
當我們初步對搜尋引擎的運作模式有了概念之後,就進入到真正 SEO 實際操作的環節了。很多 SEO 網站都會把最佳化實踐放在SEO 技術,而並沒有花太多時間關注到網站本身的架構。 而從我個人的理念來說,我們應該要先搞懂架構,所以這一期,讓我們來說網站架構吧。
Google 從推出搜尋引擎服務之後,乍看之下介面上變化不大,但它背後的演算法核心卻不斷的迭代升級,而有非常大的差異,特別是在 Rankbrain 推出之後。那麼 Rankbrain 到底是什麼?
很多朋友經常都會忽略搜索引擎是如何展現搜尋結果的。這次我就來跟大家聊聊這個結果是如何展現的。
一開始原本打算講搜尋引擎的分類,不過後來覺得與其講古不如直接切入主題更合適一點。於是我就從搜尋引擎如何工作的開始做個簡單的說明。
許多人開始接觸官網或是更新官網的時候,總是會想到 SEM(搜尋引擎行銷),在搜尋引擎上打廣告,覺得這樣可以帶來更多流量。更多人會詢問的是:SEO 跟 SEM 是幹嘛的,兩者之間有什麼關係?
在上一節我介紹了網站架構,當網站架構出現了之後,搜尋引擎怎麼會知道我們的網站發生變化了呢?就像是你換了新房子,想找好友來暖房,那麼好友怎麼知道你家怎麼走呢?這節就是來告訴你,我們如何幫搜尋引擎畫網站地圖。
當我們初步對搜尋引擎的運作模式有了概念之後,就進入到真正 SEO 實際操作的環節了。很多 SEO 網站都會把最佳化實踐放在SEO 技術,而並沒有花太多時間關注到網站本身的架構。 而從我個人的理念來說,我們應該要先搞懂架構,所以這一期,讓我們來說網站架構吧。
Google 從推出搜尋引擎服務之後,乍看之下介面上變化不大,但它背後的演算法核心卻不斷的迭代升級,而有非常大的差異,特別是在 Rankbrain 推出之後。那麼 Rankbrain 到底是什麼?
很多朋友經常都會忽略搜索引擎是如何展現搜尋結果的。這次我就來跟大家聊聊這個結果是如何展現的。
一開始原本打算講搜尋引擎的分類,不過後來覺得與其講古不如直接切入主題更合適一點。於是我就從搜尋引擎如何工作的開始做個簡單的說明。
許多人開始接觸官網或是更新官網的時候,總是會想到 SEM(搜尋引擎行銷),在搜尋引擎上打廣告,覺得這樣可以帶來更多流量。更多人會詢問的是:SEO 跟 SEM 是幹嘛的,兩者之間有什麼關係?
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
如果你想要「禁止 AI 模型」爬取您網站的內容進行 AI 訓練 那就可以參考 threads 的 robots.txt 檔案 robots.txt 是一個放在網站根目錄的檔案 大多數的合法爬蟲,都會尊重網站所寫的規定 可以看到,threads 平台禁止了多數 AI 模型的專用
Thumbnail
SEO (搜尋引擎優化) 是每一位希望在數位時代成功的企業和個人都必須掌握的重要技能。對於初學者來說,SEO可能看似複雜,但了解其基本概念和正確應用,將幫助網站在搜尋引擎中獲得更好的曝光,並吸引更多潛在客戶。本文將詳細介紹SEO的基礎知識,幫助初學者快速入門。 1. 什麼是SEO? SEO是
Thumbnail
在數位時代,建立強大的網絡品牌對於個人創業者及大型企業至關重要。這篇文章提供了一系列基本策略,從品牌定位、社交媒體營銷、內容行銷到SEO優化,讓初學者能夠循序漸進地提升品牌影響力。透過明確的品牌定位、吸引人的社交媒體內容及有效的數據分析
Thumbnail
搜尋引擎優化(SEO, Search Engine Optimization)是提升網站關鍵字排名的技術和策略。 通過SEO,可以增加網站的可見性,吸引更多自然流量,進而提升品牌知名度和業務成長。本文全面介紹了SEO的定義、運作原理、基本策略、目標、服務內容以及選擇SEO服務提供商的建議。
網站對於網路行銷至關重要,但它並不是搜尋引擎優化的唯一途徑,SEO 主要專注於優化內容和提高搜尋引擎的可見度,雖然擁有網站是實施 SEO 策略的常見且有效的方法,但 SEO 的某些方面也可以在沒有網站的情況下完成。 沒有網站可以做SEO嗎? 可以!SEO 與網站配合得好,能夠發揮相得益彰的效果,
Thumbnail
SEO即搜尋引擎優化,指的是如何能令你的網站或內容,在搜尋結果中獲得更高的排名。搜尋引擎對接觸潛在客戶來說非常重要,而優化可以幫助你的內容排在前面,獲得更多的曝光。然而,想要進行SEO,首先需要有內容,而個人網站則是玩SEO最基本的入場劵。
1、頁面沒有建立內部連結|SEO Google 的搜尋引擎爬蟲在抓取網站時,透過內部連結來發現新網頁並為其建立索引,所以建立內部連結對搜尋引擎索引網頁起著至關重要的作用。 如果網站缺乏內部連結,搜尋引擎爬蟲可能難以發現其所有頁面,這可能會導致某些頁面未被索引。  2、沒有提交 Sitemap|
隨著網際網路的不斷發展,擁有一個引人入勝的網站已經不再是選擇,而是必備的要素之一。無論你是一個企業主、內容創作者還是個人部落客,都渴望吸引更多的訪客。在這篇文章中,我們將深入探討網站優化的關鍵策略,尤其是SEO(搜尋引擎優化),幫助你提升網站的曝光度。
SEO(Search Engine Optimization)是搜尋引擎優化的意思,它是一種透過了解搜尋引擎的運作規則來調整網站,以提高網站在相關搜尋引擎中的排名,從而增加網站流量的方法。
Thumbnail
SEO,即搜尋引擎優化,是數位媒體行銷中至關重要的一環。對於初學者而言,建立一個全面的學習指南是邊向SEO巔峰的第一步。從基礎到進階,這是一場關於SEO的冒險之旅。 首先,SEO是什麼?SEO即通過優化網站內外部元素,提高其在搜尋引擎中的排名,從而吸引更多有價值的訪客。要深入了解SEO,不妨從Go
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
如果你想要「禁止 AI 模型」爬取您網站的內容進行 AI 訓練 那就可以參考 threads 的 robots.txt 檔案 robots.txt 是一個放在網站根目錄的檔案 大多數的合法爬蟲,都會尊重網站所寫的規定 可以看到,threads 平台禁止了多數 AI 模型的專用
Thumbnail
SEO (搜尋引擎優化) 是每一位希望在數位時代成功的企業和個人都必須掌握的重要技能。對於初學者來說,SEO可能看似複雜,但了解其基本概念和正確應用,將幫助網站在搜尋引擎中獲得更好的曝光,並吸引更多潛在客戶。本文將詳細介紹SEO的基礎知識,幫助初學者快速入門。 1. 什麼是SEO? SEO是
Thumbnail
在數位時代,建立強大的網絡品牌對於個人創業者及大型企業至關重要。這篇文章提供了一系列基本策略,從品牌定位、社交媒體營銷、內容行銷到SEO優化,讓初學者能夠循序漸進地提升品牌影響力。透過明確的品牌定位、吸引人的社交媒體內容及有效的數據分析
Thumbnail
搜尋引擎優化(SEO, Search Engine Optimization)是提升網站關鍵字排名的技術和策略。 通過SEO,可以增加網站的可見性,吸引更多自然流量,進而提升品牌知名度和業務成長。本文全面介紹了SEO的定義、運作原理、基本策略、目標、服務內容以及選擇SEO服務提供商的建議。
網站對於網路行銷至關重要,但它並不是搜尋引擎優化的唯一途徑,SEO 主要專注於優化內容和提高搜尋引擎的可見度,雖然擁有網站是實施 SEO 策略的常見且有效的方法,但 SEO 的某些方面也可以在沒有網站的情況下完成。 沒有網站可以做SEO嗎? 可以!SEO 與網站配合得好,能夠發揮相得益彰的效果,
Thumbnail
SEO即搜尋引擎優化,指的是如何能令你的網站或內容,在搜尋結果中獲得更高的排名。搜尋引擎對接觸潛在客戶來說非常重要,而優化可以幫助你的內容排在前面,獲得更多的曝光。然而,想要進行SEO,首先需要有內容,而個人網站則是玩SEO最基本的入場劵。
1、頁面沒有建立內部連結|SEO Google 的搜尋引擎爬蟲在抓取網站時,透過內部連結來發現新網頁並為其建立索引,所以建立內部連結對搜尋引擎索引網頁起著至關重要的作用。 如果網站缺乏內部連結,搜尋引擎爬蟲可能難以發現其所有頁面,這可能會導致某些頁面未被索引。  2、沒有提交 Sitemap|
隨著網際網路的不斷發展,擁有一個引人入勝的網站已經不再是選擇,而是必備的要素之一。無論你是一個企業主、內容創作者還是個人部落客,都渴望吸引更多的訪客。在這篇文章中,我們將深入探討網站優化的關鍵策略,尤其是SEO(搜尋引擎優化),幫助你提升網站的曝光度。
SEO(Search Engine Optimization)是搜尋引擎優化的意思,它是一種透過了解搜尋引擎的運作規則來調整網站,以提高網站在相關搜尋引擎中的排名,從而增加網站流量的方法。
Thumbnail
SEO,即搜尋引擎優化,是數位媒體行銷中至關重要的一環。對於初學者而言,建立一個全面的學習指南是邊向SEO巔峰的第一步。從基礎到進階,這是一場關於SEO的冒險之旅。 首先,SEO是什麼?SEO即通過優化網站內外部元素,提高其在搜尋引擎中的排名,從而吸引更多有價值的訪客。要深入了解SEO,不妨從Go