【文創漫談】瀏覽量爬蟲介紹 | 方格子 | UDN | 兩者的不同

更新於 發佈於 閱讀時間約 4 分鐘
raw-image


網路爬蟲的由來

網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。


網路爬蟲的原理

網路爬蟲的基本原理是模擬人工瀏覽網頁的過程。具體來說,網路爬蟲的的工作流程可以分為以下幾個步驟:

  1. 發現種子URL: 爬蟲首先需要找到一個或多個初始的URL,稱為種子URL。這些URL可以是爬蟲使用者手動提供的,也可以是從其他來源獲取的。
  2. 下載網頁內容: 爬蟲根據種子URL向目標網站發送請求,獲取網頁的HTML內容。
  3. 解析網頁內容: 爬蟲解析網頁的HTML內容,提取出所需的資訊,例如文字、圖片、鏈接等。
  4. 發現新URL: 爬蟲從解析後的網頁內容中發現新的URL,並將其加入到待爬取的URL隊列中。
  5. 重複步驟2-4: 爬蟲重複步驟2-4,直到所有待爬取的URL都被爬取完畢。

在實際應用中,網路爬蟲的程式碼可能會更加複雜,例如加入錯誤處理、限速等功能。


網路爬蟲的作用

網路爬蟲的應用非常廣泛,以下是一些常見的用途:

  • 搜尋引擎: 搜尋引擎使用網路爬蟲來抓取網頁內容,建立索引,以便使用者在搜尋時能夠找到相關的結果。這樣搜尋引擎就有該網站的資料,當有人搜尋的透過引勤的資料庫,反饋相關的資料給該使用者。
  • 排名規則:搜尋引擎引擎理這網站的資料越多,排名就越前面。這是通常的規則。越少資料與越少連接的就排在越後面。例如一個頁面有1000字,有10個連結,跟800字,有3個連結,前者排在前面,後者在後面,這很正常。也容易理解。
  • 篩選原則:搜尋引擎引擎理這網站的資料越多,排名就越前面。這是正確的,但也要看連結是否有效,同樣是1000字,同樣有10個連結,在A網站的,10個連接可以到達10個有效的頁面。在B網站的頁面,也有10個連接,卻只連結到1個有效的頁面。當然A的網站,排名前面,B的網站,排名後面,因為他的虛假連結太多。


UDN與方格子兩者的不同

UDN

udn部落格,在瀏覽頁面的時候,沒有會員的限制,所以所有畫面的可以被收集到,該網站可以收集到上百萬篇文章。有主畫面,推薦畫面,最新推薦等,每人都可自行分類,如此循環,許許多多的頁面沒有限制的被收錄在搜尋引擎中。


方格子

方格子,在瀏覽頁面的時候,有會員的限制,當收集到該畫面時,有發現新的URL,會嘗試收集新的新的URL中的資料。但很不幸的,網路爬蟲機器人,本身並沒有帳號,所以不是會員,會自動被轉址到 https://vocus.cc/become_creator

如何當機器人,登出後,你就成了非會員,就是機器人看到的一切

raw-image

https://vocus.cc/signUp非會員就一直要求登入或加入會員

raw-image


LINE

當方格子許多的頁面是become_creator,signUp時,爬蟲的判斷重要性自然會變低,因為從字面上,就是要加入成為會員,才能搜尋資料。這就像LINE一樣,搜尋引擎的網路爬蟲是進入不了你的聊天室一樣的道理,非會員怎可以看資料。所以想想為何方格子的流量會那麼少,推測這是很重要的原因。


留言
avatar-img
留言分享你的想法!
弱魚先生-avatar-img
2024/07/03
弱魚猜想,方格子最初的構想,只是單純藉由多數想利用文字創作者的加入,形成一個小眾的共構市場,然後再透過文字變現的誘惑,讓作者們互相訂閱,甚至是自行引流入格,假設會員有3萬人,每個人都至少訂閱一筆,長期下來,抽佣就會很可觀,且還可以省掉開放閱覽、管理外擾上的麻煩。當然啦!經營者有他自己的考量,我們不便評論他的對錯,因為,雖然我們看到的是高牆,但也許他看到的是河流,相信同為站在賺取收益的立場,方格子定有他認為是對自己最有利的作法,只是我們還不知道而已!
普普文創-avatar-img
發文者
2024/07/03
弱魚先生 是呀!就隨他去。
玖伊氏-avatar-img
2024/07/03
苦口婆心的普普,辛苦了!
普普文創-avatar-img
發文者
2024/07/03
玖伊氏 就所知的分享!如此而已!呵!
黃璧怡-avatar-img
2024/07/03
感謝Alan~
普普文創-avatar-img
發文者
2024/07/04
黃璧怡 算是自我檢討,做些學習。
avatar-img
普普文創
474會員
3.4K內容數
普普文創、水彩速寫、迷你短篇、文創漫談、心靈雞湯、踏青步道、智慧音樂、美食天堂、超級房間。
普普文創的其他內容
2025/04/29
提示詞:與AI的對話起點 使用AI的提示詞(Prompt)就像與一位無比博學卻略顯拘謹的對話者交談。你越清楚如何表達需求,AI的回應就越貼近你的期待。然而,隨著使用時間的累積,我們逐漸學會如何精準地「指揮」AI,但也發現了一個問題:若未明確交代細節,AI的回答往往落入一種「最大公約數」的模式——也
Thumbnail
2025/04/29
提示詞:與AI的對話起點 使用AI的提示詞(Prompt)就像與一位無比博學卻略顯拘謹的對話者交談。你越清楚如何表達需求,AI的回應就越貼近你的期待。然而,隨著使用時間的累積,我們逐漸學會如何精準地「指揮」AI,但也發現了一個問題:若未明確交代細節,AI的回答往往落入一種「最大公約數」的模式——也
Thumbnail
2025/04/26
AI寫小說,這幾個字聽起來像是科幻故事裡才會出現的場景,然而如今已經變成我們生活中可以實驗、可以討論的現實。我曾經看過有人用AI改寫《紅樓夢》,用現代的方式重新鋪陳經典,也有人試圖讓AI模擬不同風格的文學家,甚至模擬金庸、村上春樹的筆觸。我自己也試過很多方法,有時候覺得寫得不錯,有時候卻又覺得那不過
Thumbnail
2025/04/26
AI寫小說,這幾個字聽起來像是科幻故事裡才會出現的場景,然而如今已經變成我們生活中可以實驗、可以討論的現實。我曾經看過有人用AI改寫《紅樓夢》,用現代的方式重新鋪陳經典,也有人試圖讓AI模擬不同風格的文學家,甚至模擬金庸、村上春樹的筆觸。我自己也試過很多方法,有時候覺得寫得不錯,有時候卻又覺得那不過
Thumbnail
2025/04/25
如何減少惡意留言,其實這個問題已經發生一段時間,作為一個程式設計師,碰到這種問題應該都很有經驗去處理。不過因為每個人使用的程式語言不同,而且現在都是模塊化的管理,所以這次針對這個問題,做討論。我把這個問題丟給 Gimini去處理,他基本上就可以幫我處理到80%以上,剩下的只要能夠丟到系統裡面,去做測
Thumbnail
2025/04/25
如何減少惡意留言,其實這個問題已經發生一段時間,作為一個程式設計師,碰到這種問題應該都很有經驗去處理。不過因為每個人使用的程式語言不同,而且現在都是模塊化的管理,所以這次針對這個問題,做討論。我把這個問題丟給 Gimini去處理,他基本上就可以幫我處理到80%以上,剩下的只要能夠丟到系統裡面,去做測
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
前陣子為了減少滑手機的時間,我花了一些時間調整社群上會看到的內容。
我先拿推特做實驗。
那是我早已放棄抵抗的平台。
 一開始我將那些沒營養的內容都按隱藏/對此貼文不感興趣,發現沒什麼用。後來發現,改變追蹤的內容才能更大幅度影響演算法。 我刻意去追蹤了一些攝影師與畫家。
實驗很成功
Thumbnail
前陣子為了減少滑手機的時間,我花了一些時間調整社群上會看到的內容。
我先拿推特做實驗。
那是我早已放棄抵抗的平台。
 一開始我將那些沒營養的內容都按隱藏/對此貼文不感興趣,發現沒什麼用。後來發現,改變追蹤的內容才能更大幅度影響演算法。 我刻意去追蹤了一些攝影師與畫家。
實驗很成功
Thumbnail
蚯蚓鑽出地球 解讀大氣層即將寫下什麼詩篇 瀏覽日光如何渲染字裡行間 過去泥壤滋養今日芬芳 昔日雨水現在盛開鮮美 許多「每天」的累積 調配出魔法湯汁
Thumbnail
蚯蚓鑽出地球 解讀大氣層即將寫下什麼詩篇 瀏覽日光如何渲染字裡行間 過去泥壤滋養今日芬芳 昔日雨水現在盛開鮮美 許多「每天」的累積 調配出魔法湯汁
Thumbnail
網路爬蟲的由來 網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。 網路爬蟲的原理
Thumbnail
網路爬蟲的由來 網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。 網路爬蟲的原理
Thumbnail
你知道嗎?網路爬蟲其實是整個搜尋世界的起點。爬蟲將所有上線的網頁快速瀏覽後並整理重點做索引,這樣搜尋引擎才能快速檢索相關內容。今天本男爵就來跟大家好好聊一下,在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。
Thumbnail
你知道嗎?網路爬蟲其實是整個搜尋世界的起點。爬蟲將所有上線的網頁快速瀏覽後並整理重點做索引,這樣搜尋引擎才能快速檢索相關內容。今天本男爵就來跟大家好好聊一下,在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。
Thumbnail
外來種、歸化種、入侵種區別。外來入侵種對人類及生態的危害大解析與說明等等。
Thumbnail
外來種、歸化種、入侵種區別。外來入侵種對人類及生態的危害大解析與說明等等。
Thumbnail
一個男孩放生蜘蛛,一天,一位神秘訪客來訪。
Thumbnail
一個男孩放生蜘蛛,一天,一位神秘訪客來訪。
Thumbnail
Patarchaea muralis 年代:晚侏羅紀至早白堊紀 (Late Jurassic  ~ Early Cretaceous  150 mya~125 mya) 產地:中國遼寧省淩源市大王杖子(Dawangzhangzi ,Lingyuan City, Chaoyan
Thumbnail
Patarchaea muralis 年代:晚侏羅紀至早白堊紀 (Late Jurassic  ~ Early Cretaceous  150 mya~125 mya) 產地:中國遼寧省淩源市大王杖子(Dawangzhangzi ,Lingyuan City, Chaoyan
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News