網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。
網路爬蟲的基本原理是模擬人工瀏覽網頁的過程。具體來說,網路爬蟲的的工作流程可以分為以下幾個步驟:
在實際應用中,網路爬蟲的程式碼可能會更加複雜,例如加入錯誤處理、限速等功能。
網路爬蟲的應用非常廣泛,以下是一些常見的用途:
udn部落格,在瀏覽頁面的時候,沒有會員的限制,所以所有畫面的可以被收集到,該網站可以收集到上百萬篇文章。有主畫面,推薦畫面,最新推薦等,每人都可自行分類,如此循環,許許多多的頁面沒有限制的
被收錄在搜尋引擎中。
方格子,在瀏覽頁面的時候,有會員的限制,當收集到該畫面時,有發現新的URL,會嘗試收集新的新的URL中的資料。但很不幸的,網路爬蟲機器人,本身並沒有帳號,所以不是會員,會自動被
轉址到 https://vocus.cc/become_creator
如何當機器人,登出後,你就成了非會員
,就是機器人看到的一切
https://vocus.cc/signUp
非會員就一直要求登入或加入會員
當方格子許多的頁面是become_creator,
signUp
時,爬蟲的判斷重要性自然會變低,因為從字面上,就是要加入成為會員,才能搜尋資料。這就像LINE一樣,搜尋引擎的網路爬蟲是進入不了你的聊天室一樣的道理,非會員怎可以看資料。所以想想為何方格子的流量會那麼少,推測這是很重要的原因。