
網路爬蟲的由來
網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。
網路爬蟲的原理
網路爬蟲的基本原理是模擬人工瀏覽網頁的過程。具體來說,網路爬蟲的的工作流程可以分為以下幾個步驟:
- 發現種子URL: 爬蟲首先需要找到一個或多個初始的URL,稱為種子URL。這些URL可以是爬蟲使用者手動提供的,也可以是從其他來源獲取的。
- 下載網頁內容: 爬蟲根據種子URL向目標網站發送請求,獲取網頁的HTML內容。
- 解析網頁內容: 爬蟲解析網頁的HTML內容,提取出所需的資訊,例如文字、圖片、鏈接等。
- 發現新URL: 爬蟲從解析後的網頁內容中發現新的URL,並將其加入到待爬取的URL隊列中。
- 重複步驟2-4: 爬蟲重複步驟2-4,直到所有待爬取的URL都被爬取完畢。
在實際應用中,網路爬蟲的程式碼可能會更加複雜,例如加入錯誤處理、限速等功能。
網路爬蟲的作用
網路爬蟲的應用非常廣泛,以下是一些常見的用途:
- 搜尋引擎: 搜尋引擎使用網路爬蟲來抓取網頁內容,建立索引,以便使用者在搜尋時能夠找到相關的結果。這樣搜尋引擎就有該網站的資料,當有人搜尋的透過引勤的資料庫,反饋相關的資料給該使用者。
- 排名規則:搜尋引擎引擎理這網站的資料越多,排名就越前面。這是通常的規則。越少資料與越少連接的就排在越後面。例如一個頁面有1000字,有10個連結,跟800字,有3個連結,前者排在前面,後者在後面,這很正常。也容易理解。
- 篩選原則:搜尋引擎引擎理這網站的資料越多,排名就越前面。這是正確的,但也要看連結是否有效,同樣是1000字,同樣有10個連結,在A網站的,10個連接可以到達10個有效的頁面。在B網站的頁面,也有10個連接,卻只連結到1個有效的頁面。當然A的網站,排名前面,B的網站,排名後面,因為他的虛假連結太多。
UDN與方格子兩者的不同
UDN
udn部落格,在瀏覽頁面的時候,沒有會員的限制,所以所有畫面的可以被收集到,該網站可以收集到上百萬篇文章。有主畫面,推薦畫面,最新推薦等,每人都可自行分類,如此循環,許許多多的頁面沒有限制的
被收錄在搜尋引擎中。
方格子
方格子,在瀏覽頁面的時候,有會員的限制,當收集到該畫面時,有發現新的URL,會嘗試收集新的新的URL中的資料。但很不幸的,網路爬蟲機器人,本身並沒有帳號,所以不是會員,會自動被
轉址到 https://vocus.cc/become_creator
如何當機器人,登出後,你就成了非會員
,就是機器人看到的一切

https://vocus.cc/signUp
非會員就一直要求登入或加入會員

LINE
當方格子許多的頁面是become_creator,
signUp
時,爬蟲的判斷重要性自然會變低,因為從字面上,就是要加入成為會員,才能搜尋資料。這就像LINE一樣,搜尋引擎的網路爬蟲是進入不了你的聊天室一樣的道理,非會員怎可以看資料。所以想想為何方格子的流量會那麼少,推測這是很重要的原因。