了解搜尋引擎的運作原理,是執行搜尋引擎優化(Search Engine Optimization, SEO)前的首要之務,要先知道如何運作,才能進一步思索如何優化。
搜尋引擎Google的運作大致分為:爬文(Crawling)、收錄(Indexing)、排名(Ranking)三個階段。
首先是透過網路爬蟲 (Crawler),或稱爬文蜘蛛 (Spider),在網路上「爬文」,也就是在網際網絡不斷爬取網頁、尋找新出現的網頁;找到新網頁以後,會將資料回傳,並「收錄」進Google的資料庫分類管理及儲存;
再來,Google會利用官方複雜且不斷更新的演算法,為資料庫裡的網頁進行「排名」,選擇有價值的內容推薦給使用者。最後這一階段正是SEO們最關心、花費最多心力研究的範疇,目的就是要設法了解影響排名的各項因素,並且對症下藥。
事實上,最一開始的爬文過程也一樣重要。網頁如果沒有被爬文、收錄,也就沒有討論排名的意義,就像書店根本沒有進貨這本書一樣,當然也不用指望書可以排上暢銷排行榜。
爬文的特性
爬文有幾個重要特性:
- 透過網頁之間的連結爬取
- 高權威性、有在更新的網頁優先
- 每個網站有一定的爬文額度
透過網頁之間的連結爬取
爬文蜘蛛探索網路的方式是透過網頁之間的連結,由一個網頁連向另一個,不斷擴大爬取範圍。有被爬文蜘蛛爬取、並收錄進Google資料庫的網頁,使用者才能在Google上搜尋得到。
高權威性、有在更新的優先
高權威性的網頁是指網頁的權重較高,通常是有其他高權威網站幫忙「背書」,因此會被Google判定為內容是能提供使用者價值的好網頁。
一般來說,具有高權威性的網頁,還有時常在更新的網頁,較能提供使用者有用的資訊,爬文蜘蛛會優先而且頻繁的爬取。
所以這些網頁一旦有更新,爬文蜘蛛能快速發現,且立刻將資料回傳給Google資料庫,使用者就能更即時搜尋到相關的新資訊。
比如大型新聞媒體就會是爬文蜘蛛優先爬取的對象,這也是為什麼大型新聞媒體一發文,使用者幾乎能同時在Google上找到。
每個網站有一定的爬文額度
除了上述提到,網站權重和更新頻率會影響爬文的優先順序外,Google還有所謂的「爬文額度」。
意思就是,Google只會在有限的時間內爬取一定數量的網頁。一旦爬文額度滿了,爬文蜘蛛就不會再繼續爬取同一網站,而是會移動到下個網站重新爬取。
至於Google如何決定網站的爬文額度、有哪些影響爬文額度的因素呢?
Google官方列舉了幾大項可能因素,其中不乏重複內容、伺服器回應錯誤、劣質/垃圾內容等。
一旦發現網站含有大量此類價值不高的網頁,Google會降低該網站的爬文額度,因為如果將資源耗費在爬取這些價值不高的內容,很可能會導致資源被浪費,反而真正重要的內容卻沒有被爬文蜘蛛發現。
因此,若要避免爬文額度被調降,應要設法避免此類狀況發生。此外,若想確保網站內容能被爬取,除了讓爬文蜘蛛優先爬、提高爬文額度以外,也可以設法提高爬文效率。
如何提高爬文效率?
簡單來說,就是讓爬文蜘蛛好爬一點、降低爬文的障礙。
- 提高網站速度
- 善用內部連結
- 建立較平面化的網站架構
提高網站速度
試想,若爬文蜘蛛進入一個網站開始爬取,網站卻一直呈現讀取中,不覺得很可惜嗎?這些等待時間本該能用來爬取更多網頁的。
Google官方也承認網站速度會影響爬文蜘蛛的效率,網站回應速度越快,爬文蜘蛛能爬取越多網頁;網站速度越慢或出現伺服器錯誤,爬取數量也會隨之下降。
善用內部連結
既然爬文跟連結有很大的關聯,新網頁可以透過與舊網頁連結而被爬文蜘蛛找到,那麼越多連結指向一個新網頁,勢必能增加新網頁被爬取到的機率。
最快速且有效的方式是,建立一個從高權威性的網站到新網頁的連結,因為爬文蜘蛛會優先爬取權重高的網頁。但這不是一件容易的事,因此可以考慮從自家網站內部的連結下手,利用內部連結串連新舊網頁。
在自家網站的舊網頁建立一個連結至新網頁,就像在告訴爬文蜘蛛:「嘿,那裡有個新網頁,你要不要過去看看?」越多網頁連結至新網頁,越容易讓爬文蜘蛛注意到新網頁。
建立較平面化的網站架構
知名SEO權威網站Backlinko認為,一個好的網站架構,應該是要能讓首頁連結到網站中的任一個網頁,都維持在「四次點擊」以內,也就是要避免太多垂直層級的架構。
對使用者而言,結構、分類清楚的網站架構較方便找尋需要的資料;對爬文蜘蛛而言,也較容易透過連結爬取到網站內的所有網頁,否則離首頁太遠可能不會被爬到、完全沒有任何連結的孤立網頁也較難被爬取。
總結:爬文優化能提高使用者體驗,但不必過度在意
爬文看似會影響網頁收錄及更新的狀況,所以越來越多網站主開始擔憂爬文頻率會影響排名,但事實上,目前爬文運作的方式已有一定的效率,能應付不斷增加的龐大資訊量。
一般網站不需要特別擔心網頁內容會被遺漏,除非是大型網站,或有可能一次會更新大量網頁的網站,才需要留意爬文額度分配,以及避免爬文效率不高的問題。
若按此邏輯,本文提及的各項影響因素,對一般網站而言,大概不是非常重要,不會過度影響爬文跟收錄的狀況嗎?
事實上,仔細看各項影響因素會發現,很多因素都與改善使用者體驗(User experience)有關,例如網站速度太慢,可能會造成使用者觀感不佳,而降低使用網站的意願。
因此即便不是針對爬文本身進行優化,這些影響因素既然能提高使用者體驗,讓使用者對網站使用上更滿意、並更願意回訪,就值得我們去改善、優化。