爬蟲工具

更新於 發佈於 閱讀時間約 2 分鐘

爬蟲工作一段時間,其中有些需要定期每小時爬一次或需要時常維護修改,對於大量的爬蟲要如何寫才能可靠且好維護呢?

網路上很多免費的python爬蟲教學 爬蟲教學 這個寫得很好,就不再重寫教學了,只分享一些實際遇到的問題

以下是我用的爬蟲工具

requests 取得網站內容

pyquery 解析需要的欄位,也可以用beautifulsoup,我選擇使用pyquery,因為可以更方便的取到資料 ,另外語法幾乎跟jquery一樣,jquery是非常實用的工具,寫網站前端或做資料視覺化的互動很常用到,使用過jquery的人轉寫爬蟲可以很快上手

scrapy 如果需要做個可維護好修改的爬蟲還是需要用這個

scrapyd 把爬蟲佈署成一個服務

spiderkeeper(有一些很嚴重的bug需要修改,作者已經沒有維護) scrapyd的圖形化網站服務,做排程

requestium requests整合Selenium的方便工具

tesseract 破解驗證碼,另外自己訓練模型破解驗證碼,會比tesseract正確率高很多,也很簡單實作,網路上有許多現成模型可以使用

MongoDB 對非結構的網站先把資料塞進去

如何爬被禁止爬蟲的網站

  • 使用隨機的瀏覽器 添加user agent
  • ip被封改proxy 去github上找免費proxy服務
  • 下載延遲 越久越好不要把別人的網站搞壞
  • 多執行緒 越少越好不要把別人的網站搞壞,除非是不同網站
  • 如果可以,不要用cookies 有的會被發現爬蟲
  • 當前從哪個網站來的 加referer

以上問題scrapy都可以很方便添加完成,或原本就幫你處理了 網路上都有很多解決上面問題的教學,之後我也會寫我的解法

留言
avatar-img
留言分享你的想法!
avatar-img
框框的沙龍
1會員
10內容數
機器學習應用在股市上
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
👨‍💻 簡介 最近想要透過小實作來撰寫筆記,達到做中學的效果,因此就來實作個小爬蟲順便結合前面學到的package做一個小複習。
Thumbnail
👨‍💻 簡介 最近想要透過小實作來撰寫筆記,達到做中學的效果,因此就來實作個小爬蟲順便結合前面學到的package做一個小複習。
Thumbnail
在這一課中,我們將學習如何在Python中使用beautifulsoup4和requests模塊進行基本的網頁爬蟲。 首先,你需要安裝beautifulsoup4模塊,如果你還沒有安裝它的話:
Thumbnail
在這一課中,我們將學習如何在Python中使用beautifulsoup4和requests模塊進行基本的網頁爬蟲。 首先,你需要安裝beautifulsoup4模塊,如果你還沒有安裝它的話:
Thumbnail
上一篇我們已經介紹過Google Colab的基本用法,建議可以先行閱讀「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」,進行基本概念與環境的建置再進行下一步會比較容易進行學習。 雖然網路上已經提供非常多的股市資訊,但各個網站可能都零零散散,難免我們得
Thumbnail
上一篇我們已經介紹過Google Colab的基本用法,建議可以先行閱讀「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」,進行基本概念與環境的建置再進行下一步會比較容易進行學習。 雖然網路上已經提供非常多的股市資訊,但各個網站可能都零零散散,難免我們得
Thumbnail
其實要為專案建立操作介面的方式很多,除了網頁之外,還能另外寫個專門的手機 APP 連線,或是乾脆升級算法,讓我們能隨口喊一聲「嘿OO!」就搞定,不過⋯
Thumbnail
其實要為專案建立操作介面的方式很多,除了網頁之外,還能另外寫個專門的手機 APP 連線,或是乾脆升級算法,讓我們能隨口喊一聲「嘿OO!」就搞定,不過⋯
Thumbnail
一個網站可能除了首頁以外還會有其他的相關網站 例如/admin ,login/ ,home.php ,/root/等等 但是又不一定於是互聯網上就有一些words清單 像是 裡面就有存放各種可能的目錄名稱 例如給定一個網址在網址尾端增加/admin"有可能"就會連到後台 但是人手工一個一個去試去猜實
Thumbnail
一個網站可能除了首頁以外還會有其他的相關網站 例如/admin ,login/ ,home.php ,/root/等等 但是又不一定於是互聯網上就有一些words清單 像是 裡面就有存放各種可能的目錄名稱 例如給定一個網址在網址尾端增加/admin"有可能"就會連到後台 但是人手工一個一個去試去猜實
Thumbnail
到目前為止,我們都還是在附檔名為.py的Python檔案執行程式碼,當程式需要與外部的檔案互動,例如讀取文字、表格、或是影像來做分析,或是把程式執行的結果儲存下來,就需要能夠存取外部的檔案。例如,在上一節中,當貪食蛇遊戲結束之後,隨著程式停止執行,該次的分數也就被丟棄,若能將分數記錄下來,下次遊戲開
Thumbnail
到目前為止,我們都還是在附檔名為.py的Python檔案執行程式碼,當程式需要與外部的檔案互動,例如讀取文字、表格、或是影像來做分析,或是把程式執行的結果儲存下來,就需要能夠存取外部的檔案。例如,在上一節中,當貪食蛇遊戲結束之後,隨著程式停止執行,該次的分數也就被丟棄,若能將分數記錄下來,下次遊戲開
Thumbnail
經過數個月的洗禮,統整而出的推薦程式學習網站。
Thumbnail
經過數個月的洗禮,統整而出的推薦程式學習網站。
Thumbnail
pyquery語法類似jquery,有什麼問題可以查詢jquery看看怎麼用jquery的教學 選id: # 如果有id優先使用 選class: . 要確保沒有相同的class,class裡面有空格用.取代空格 同時選多個 用逗號區隔 '.article-header,.article-conten
Thumbnail
pyquery語法類似jquery,有什麼問題可以查詢jquery看看怎麼用jquery的教學 選id: # 如果有id優先使用 選class: . 要確保沒有相同的class,class裡面有空格用.取代空格 同時選多個 用逗號區隔 '.article-header,.article-conten
Thumbnail
開啟F12開發人工具 取得CSV下載網址 利用巨集協助編寫簡易程式
Thumbnail
開啟F12開發人工具 取得CSV下載網址 利用巨集協助編寫簡易程式
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News