【文創漫談】瀏覽量爬蟲介紹 | 方格子 | UDN | 兩者的不同

更新 發佈閱讀 4 分鐘
vocus|新世代的創作平台


網路爬蟲的由來

網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。


網路爬蟲的原理

網路爬蟲的基本原理是模擬人工瀏覽網頁的過程。具體來說,網路爬蟲的的工作流程可以分為以下幾個步驟:

  1. 發現種子URL: 爬蟲首先需要找到一個或多個初始的URL,稱為種子URL。這些URL可以是爬蟲使用者手動提供的,也可以是從其他來源獲取的。
  2. 下載網頁內容: 爬蟲根據種子URL向目標網站發送請求,獲取網頁的HTML內容。
  3. 解析網頁內容: 爬蟲解析網頁的HTML內容,提取出所需的資訊,例如文字、圖片、鏈接等。
  4. 發現新URL: 爬蟲從解析後的網頁內容中發現新的URL,並將其加入到待爬取的URL隊列中。
  5. 重複步驟2-4: 爬蟲重複步驟2-4,直到所有待爬取的URL都被爬取完畢。

在實際應用中,網路爬蟲的程式碼可能會更加複雜,例如加入錯誤處理、限速等功能。


網路爬蟲的作用

網路爬蟲的應用非常廣泛,以下是一些常見的用途:

  • 搜尋引擎: 搜尋引擎使用網路爬蟲來抓取網頁內容,建立索引,以便使用者在搜尋時能夠找到相關的結果。這樣搜尋引擎就有該網站的資料,當有人搜尋的透過引勤的資料庫,反饋相關的資料給該使用者。
  • 排名規則:搜尋引擎引擎理這網站的資料越多,排名就越前面。這是通常的規則。越少資料與越少連接的就排在越後面。例如一個頁面有1000字,有10個連結,跟800字,有3個連結,前者排在前面,後者在後面,這很正常。也容易理解。
  • 篩選原則:搜尋引擎引擎理這網站的資料越多,排名就越前面。這是正確的,但也要看連結是否有效,同樣是1000字,同樣有10個連結,在A網站的,10個連接可以到達10個有效的頁面。在B網站的頁面,也有10個連接,卻只連結到1個有效的頁面。當然A的網站,排名前面,B的網站,排名後面,因為他的虛假連結太多。


UDN與方格子兩者的不同

UDN

udn部落格,在瀏覽頁面的時候,沒有會員的限制,所以所有畫面的可以被收集到,該網站可以收集到上百萬篇文章。有主畫面,推薦畫面,最新推薦等,每人都可自行分類,如此循環,許許多多的頁面沒有限制的被收錄在搜尋引擎中。


方格子

方格子,在瀏覽頁面的時候,有會員的限制,當收集到該畫面時,有發現新的URL,會嘗試收集新的新的URL中的資料。但很不幸的,網路爬蟲機器人,本身並沒有帳號,所以不是會員,會自動被轉址到 https://vocus.cc/become_creator

如何當機器人,登出後,你就成了非會員,就是機器人看到的一切

vocus|新世代的創作平台

https://vocus.cc/signUp非會員就一直要求登入或加入會員

vocus|新世代的創作平台


LINE

當方格子許多的頁面是become_creator,signUp時,爬蟲的判斷重要性自然會變低,因為從字面上,就是要加入成為會員,才能搜尋資料。這就像LINE一樣,搜尋引擎的網路爬蟲是進入不了你的聊天室一樣的道理,非會員怎可以看資料。所以想想為何方格子的流量會那麼少,推測這是很重要的原因。


留言
avatar-img
普普文創
593會員
7.0K內容數
這裡就是一個小報社,普普文創、水彩速寫、迷你短篇、文創漫談、心靈雞湯、踏青步道、智慧音樂、美食天堂、超級房間。歡迎閱讀。。。謝謝。。
普普文創的其他內容
2025/04/29
提示詞:與AI的對話起點 使用AI的提示詞(Prompt)就像與一位無比博學卻略顯拘謹的對話者交談。你越清楚如何表達需求,AI的回應就越貼近你的期待。然而,隨著使用時間的累積,我們逐漸學會如何精準地「指揮」AI,但也發現了一個問題:若未明確交代細節,AI的回答往往落入一種「最大公約數」的模式——也
Thumbnail
2025/04/29
提示詞:與AI的對話起點 使用AI的提示詞(Prompt)就像與一位無比博學卻略顯拘謹的對話者交談。你越清楚如何表達需求,AI的回應就越貼近你的期待。然而,隨著使用時間的累積,我們逐漸學會如何精準地「指揮」AI,但也發現了一個問題:若未明確交代細節,AI的回答往往落入一種「最大公約數」的模式——也
Thumbnail
2025/04/26
AI寫小說,這幾個字聽起來像是科幻故事裡才會出現的場景,然而如今已經變成我們生活中可以實驗、可以討論的現實。我曾經看過有人用AI改寫《紅樓夢》,用現代的方式重新鋪陳經典,也有人試圖讓AI模擬不同風格的文學家,甚至模擬金庸、村上春樹的筆觸。我自己也試過很多方法,有時候覺得寫得不錯,有時候卻又覺得那不過
Thumbnail
2025/04/26
AI寫小說,這幾個字聽起來像是科幻故事裡才會出現的場景,然而如今已經變成我們生活中可以實驗、可以討論的現實。我曾經看過有人用AI改寫《紅樓夢》,用現代的方式重新鋪陳經典,也有人試圖讓AI模擬不同風格的文學家,甚至模擬金庸、村上春樹的筆觸。我自己也試過很多方法,有時候覺得寫得不錯,有時候卻又覺得那不過
Thumbnail
2025/04/25
如何減少惡意留言,其實這個問題已經發生一段時間,作為一個程式設計師,碰到這種問題應該都很有經驗去處理。不過因為每個人使用的程式語言不同,而且現在都是模塊化的管理,所以這次針對這個問題,做討論。我把這個問題丟給 Gimini去處理,他基本上就可以幫我處理到80%以上,剩下的只要能夠丟到系統裡面,去做測
Thumbnail
2025/04/25
如何減少惡意留言,其實這個問題已經發生一段時間,作為一個程式設計師,碰到這種問題應該都很有經驗去處理。不過因為每個人使用的程式語言不同,而且現在都是模塊化的管理,所以這次針對這個問題,做討論。我把這個問題丟給 Gimini去處理,他基本上就可以幫我處理到80%以上,剩下的只要能夠丟到系統裡面,去做測
Thumbnail
看更多
你可能也想看
Thumbnail
外來種、歸化種、入侵種區別。外來入侵種對人類及生態的危害大解析與說明等等。
Thumbnail
外來種、歸化種、入侵種區別。外來入侵種對人類及生態的危害大解析與說明等等。
Thumbnail
蚯蚓鑽出地球 解讀大氣層即將寫下什麼詩篇 瀏覽日光如何渲染字裡行間 過去泥壤滋養今日芬芳 昔日雨水現在盛開鮮美 許多「每天」的累積 調配出魔法湯汁
Thumbnail
蚯蚓鑽出地球 解讀大氣層即將寫下什麼詩篇 瀏覽日光如何渲染字裡行間 過去泥壤滋養今日芬芳 昔日雨水現在盛開鮮美 許多「每天」的累積 調配出魔法湯汁
Thumbnail
關係,要如同螞蟻般,撿拾遺落的片段。
Thumbnail
關係,要如同螞蟻般,撿拾遺落的片段。
Thumbnail
網路爬蟲的由來 網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。 網路爬蟲的原理
Thumbnail
網路爬蟲的由來 網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。 網路爬蟲的原理
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
Patarchaea muralis 年代:晚侏羅紀至早白堊紀 (Late Jurassic  ~ Early Cretaceous  150 mya~125 mya) 產地:中國遼寧省淩源市大王杖子(Dawangzhangzi ,Lingyuan City, Chaoyan
Thumbnail
Patarchaea muralis 年代:晚侏羅紀至早白堊紀 (Late Jurassic  ~ Early Cretaceous  150 mya~125 mya) 產地:中國遼寧省淩源市大王杖子(Dawangzhangzi ,Lingyuan City, Chaoyan
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
前陣子為了減少滑手機的時間,我花了一些時間調整社群上會看到的內容。
我先拿推特做實驗。
那是我早已放棄抵抗的平台。
 一開始我將那些沒營養的內容都按隱藏/對此貼文不感興趣,發現沒什麼用。後來發現,改變追蹤的內容才能更大幅度影響演算法。 我刻意去追蹤了一些攝影師與畫家。
實驗很成功
Thumbnail
前陣子為了減少滑手機的時間,我花了一些時間調整社群上會看到的內容。
我先拿推特做實驗。
那是我早已放棄抵抗的平台。
 一開始我將那些沒營養的內容都按隱藏/對此貼文不感興趣,發現沒什麼用。後來發現,改變追蹤的內容才能更大幅度影響演算法。 我刻意去追蹤了一些攝影師與畫家。
實驗很成功
Thumbnail
一個男孩放生蜘蛛,一天,一位神秘訪客來訪。
Thumbnail
一個男孩放生蜘蛛,一天,一位神秘訪客來訪。
Thumbnail
你知道嗎?網路爬蟲其實是整個搜尋世界的起點。爬蟲將所有上線的網頁快速瀏覽後並整理重點做索引,這樣搜尋引擎才能快速檢索相關內容。今天本男爵就來跟大家好好聊一下,在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。
Thumbnail
你知道嗎?網路爬蟲其實是整個搜尋世界的起點。爬蟲將所有上線的網頁快速瀏覽後並整理重點做索引,這樣搜尋引擎才能快速檢索相關內容。今天本男爵就來跟大家好好聊一下,在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News