爬蟲工具

更新於 2020/05/09發佈於 2020/05/09閱讀時間約 2 分鐘

爬蟲工作一段時間，其中有些需要定期每小時爬一次或需要時常維護修改，對於大量的爬蟲要如何寫才能可靠且好維護呢?

網路上很多免費的python爬蟲教學爬蟲教學這個寫得很好，就不再重寫教學了，只分享一些實際遇到的問題

以下是我用的爬蟲工具

requests 取得網站內容

pyquery 解析需要的欄位，也可以用beautifulsoup，我選擇使用pyquery，因為可以更方便的取到資料，另外語法幾乎跟jquery一樣，jquery是非常實用的工具，寫網站前端或做資料視覺化的互動很常用到，使用過jquery的人轉寫爬蟲可以很快上手

scrapy 如果需要做個可維護好修改的爬蟲還是需要用這個

scrapyd 把爬蟲佈署成一個服務

spiderkeeper(有一些很嚴重的bug需要修改，作者已經沒有維護) scrapyd的圖形化網站服務，做排程

requestium requests整合Selenium的方便工具

tesseract 破解驗證碼，另外自己訓練模型破解驗證碼，會比tesseract正確率高很多，也很簡單實作，網路上有許多現成模型可以使用

MongoDB 對非結構的網站先把資料塞進去

如何爬被禁止爬蟲的網站

使用隨機的瀏覽器添加user agent
ip被封改proxy 去github上找免費proxy服務
下載延遲越久越好不要把別人的網站搞壞
多執行緒越少越好不要把別人的網站搞壞，除非是不同網站
如果可以，不要用cookies 有的會被發現爬蟲
當前從哪個網站來的加referer

以上問題scrapy都可以很方便添加完成，或原本就幫你處理了網路上都有很多解決上面問題的教學，之後我也會寫我的解法

#爬蟲

#工具

框框的沙龍股票量化交易爬蟲方法

留言

留言分享你的想法！

框框的沙龍

1會員

10內容數

機器學習應用在股市上

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

重點摘要： 6 月繼續維持基準利率不變，強調維持高利率主因為關稅點陣圖表現略為鷹派，收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變，強調需要維持高利率是因為關稅：聯準會 (Fed) 召開 6 月利率會議

#Fed#聯準會#美股

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

#Fed#聯準會#美股

2025/06/18

Alan的開發者天地

如何用 Go 實作一個簡單的 PTT 爬蟲

👨‍💻 簡介最近想要透過小實作來撰寫筆記，達到做中學的效果，因此就來實作個小爬蟲順便結合前面學到的package做一個小複習。

#Golang#tutorial

2023/10/04

Alan的開發者天地

如何用 Go 實作一個簡單的 PTT 爬蟲

👨‍💻 簡介最近想要透過小實作來撰寫筆記，達到做中學的效果，因此就來實作個小爬蟲順便結合前面學到的package做一個小複習。

#Golang#tutorial

2023/10/04

Hack_Z的沙龍

小白學Python的第二十堂課

在這一課中，我們將學習如何在Python中使用beautifulsoup4和requests模塊進行基本的網頁爬蟲。首先，你需要安裝beautifulsoup4模塊，如果你還沒有安裝它的話:

2023/09/04

Hack_Z的沙龍

小白學Python的第二十堂課

在這一課中，我們將學習如何在Python中使用beautifulsoup4和requests模塊進行基本的網頁爬蟲。首先，你需要安裝beautifulsoup4模塊，如果你還沒有安裝它的話:

2023/09/04

阿Han的沙龍

【Google Colab Python系列】該如何設計自己的爬蟲來抓取Html資料？

上一篇我們已經介紹過Google Colab的基本用法，建議可以先行閱讀「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」，進行基本概念與環境的建置再進行下一步會比較容易進行學習。雖然網路上已經提供非常多的股市資訊，但各個網站可能都零零散散，難免我們得

#程式語言#python#GoogleColab

2023/06/10

阿Han的沙龍

【Google Colab Python系列】該如何設計自己的爬蟲來抓取Html資料？

#程式語言#python#GoogleColab

2023/06/10

偽命名培養體

[人工智障計畫] 難眠之頁 #4 | 網頁是正途！

其實要為專案建立操作介面的方式很多，除了網頁之外，還能另外寫個專門的手機 APP 連線，或是乾脆升級算法，讓我們能隨口喊一聲「嘿OO！」就搞定，不過⋯

#人工智障計畫#難眠之頁#專案

2023/03/29

偽命名培養體

[人工智障計畫] 難眠之頁 #4 | 網頁是正途！

#人工智障計畫#難眠之頁#專案

2023/03/29

于正龍（Ricky）的沙龍

暴力測試URL(暴力嘗試網站目錄)

一個網站可能除了首頁以外還會有其他的相關網站例如/admin ,login/ ,home.php ,/root/等等但是又不一定於是互聯網上就有一些words清單像是裡面就有存放各種可能的目錄名稱例如給定一個網址在網址尾端增加/admin"有可能"就會連到後台但是人手工一個一個去試去猜實

2023/03/20

2023/03/20

不間斷 Python 挑戰 Day 27 - 檔案、資料夾與路徑

到目前為止，我們都還是在附檔名為.py的Python檔案執行程式碼，當程式需要與外部的檔案互動，例如讀取文字、表格、或是影像來做分析，或是把程式執行的結果儲存下來，就需要能夠存取外部的檔案。例如，在上一節中，當貪食蛇遊戲結束之後，隨著程式停止執行，該次的分數也就被丟棄，若能將分數記錄下來，下次遊戲開

#python#file#path

2022/03/02