爬蟲工具

更新 發佈閱讀 2 分鐘

爬蟲工作一段時間,其中有些需要定期每小時爬一次或需要時常維護修改,對於大量的爬蟲要如何寫才能可靠且好維護呢?

網路上很多免費的python爬蟲教學 爬蟲教學 這個寫得很好,就不再重寫教學了,只分享一些實際遇到的問題

以下是我用的爬蟲工具

requests 取得網站內容

pyquery 解析需要的欄位,也可以用beautifulsoup,我選擇使用pyquery,因為可以更方便的取到資料 ,另外語法幾乎跟jquery一樣,jquery是非常實用的工具,寫網站前端或做資料視覺化的互動很常用到,使用過jquery的人轉寫爬蟲可以很快上手

scrapy 如果需要做個可維護好修改的爬蟲還是需要用這個

scrapyd 把爬蟲佈署成一個服務

spiderkeeper(有一些很嚴重的bug需要修改,作者已經沒有維護) scrapyd的圖形化網站服務,做排程

requestium requests整合Selenium的方便工具

tesseract 破解驗證碼,另外自己訓練模型破解驗證碼,會比tesseract正確率高很多,也很簡單實作,網路上有許多現成模型可以使用

MongoDB 對非結構的網站先把資料塞進去

如何爬被禁止爬蟲的網站

  • 使用隨機的瀏覽器 添加user agent
  • ip被封改proxy 去github上找免費proxy服務
  • 下載延遲 越久越好不要把別人的網站搞壞
  • 多執行緒 越少越好不要把別人的網站搞壞,除非是不同網站
  • 如果可以,不要用cookies 有的會被發現爬蟲
  • 當前從哪個網站來的 加referer

以上問題scrapy都可以很方便添加完成,或原本就幫你處理了 網路上都有很多解決上面問題的教學,之後我也會寫我的解法

留言
avatar-img
留言分享你的想法!
avatar-img
框框的沙龍
1會員
10內容數
機器學習應用在股市上
你可能也想看
Thumbnail
不是每個人都適合自己操盤,懂得利用「專業」,才是績效拉開差距的開始
Thumbnail
不是每個人都適合自己操盤,懂得利用「專業」,才是績效拉開差距的開始
Thumbnail
生產力爆發帶來的過剩,會讓過去的「還可以啦」成為最低標準。市場需求對於出類拔萃、獨一無二的需求還是存在,但是對於那些價格高度敏感,或是只需要穩定、便宜、還可以啦的需求端來說,AI 正在迅速取代這部分的供給,中間長尾的服務提供者被 AI 替換。
Thumbnail
生產力爆發帶來的過剩,會讓過去的「還可以啦」成為最低標準。市場需求對於出類拔萃、獨一無二的需求還是存在,但是對於那些價格高度敏感,或是只需要穩定、便宜、還可以啦的需求端來說,AI 正在迅速取代這部分的供給,中間長尾的服務提供者被 AI 替換。
Thumbnail
年末總有一種莫名的魔力,讓人特別容易感到孤單。 聖誕節、跨年、緊接著農曆新年……滑開社群,不是甜蜜放閃,就是一群人早早訂好跨年行程。 明明日子算得上順遂,工作穩定無憂,生活也按部就班地往前走着,可總在萬籟俱寂的夜晚,獨自對着空蕩的房間時,心底會悄悄冒出一個念頭:今年,是不是可以不一樣?不再獨自抵
Thumbnail
年末總有一種莫名的魔力,讓人特別容易感到孤單。 聖誕節、跨年、緊接著農曆新年……滑開社群,不是甜蜜放閃,就是一群人早早訂好跨年行程。 明明日子算得上順遂,工作穩定無憂,生活也按部就班地往前走着,可總在萬籟俱寂的夜晚,獨自對着空蕩的房間時,心底會悄悄冒出一個念頭:今年,是不是可以不一樣?不再獨自抵
Thumbnail
👨‍💻 簡介 最近想要透過小實作來撰寫筆記,達到做中學的效果,因此就來實作個小爬蟲順便結合前面學到的package做一個小複習。
Thumbnail
👨‍💻 簡介 最近想要透過小實作來撰寫筆記,達到做中學的效果,因此就來實作個小爬蟲順便結合前面學到的package做一個小複習。
Thumbnail
在這一課中,我們將學習如何在Python中使用beautifulsoup4和requests模塊進行基本的網頁爬蟲。 首先,你需要安裝beautifulsoup4模塊,如果你還沒有安裝它的話:
Thumbnail
在這一課中,我們將學習如何在Python中使用beautifulsoup4和requests模塊進行基本的網頁爬蟲。 首先,你需要安裝beautifulsoup4模塊,如果你還沒有安裝它的話:
Thumbnail
上一篇我們已經介紹過Google Colab的基本用法,建議可以先行閱讀「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」,進行基本概念與環境的建置再進行下一步會比較容易進行學習。 雖然網路上已經提供非常多的股市資訊,但各個網站可能都零零散散,難免我們得
Thumbnail
上一篇我們已經介紹過Google Colab的基本用法,建議可以先行閱讀「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」,進行基本概念與環境的建置再進行下一步會比較容易進行學習。 雖然網路上已經提供非常多的股市資訊,但各個網站可能都零零散散,難免我們得
Thumbnail
其實要為專案建立操作介面的方式很多,除了網頁之外,還能另外寫個專門的手機 APP 連線,或是乾脆升級算法,讓我們能隨口喊一聲「嘿OO!」就搞定,不過⋯
Thumbnail
其實要為專案建立操作介面的方式很多,除了網頁之外,還能另外寫個專門的手機 APP 連線,或是乾脆升級算法,讓我們能隨口喊一聲「嘿OO!」就搞定,不過⋯
Thumbnail
一個網站可能除了首頁以外還會有其他的相關網站 例如/admin ,login/ ,home.php ,/root/等等 但是又不一定於是互聯網上就有一些words清單 像是 裡面就有存放各種可能的目錄名稱 例如給定一個網址在網址尾端增加/admin"有可能"就會連到後台 但是人手工一個一個去試去猜實
Thumbnail
一個網站可能除了首頁以外還會有其他的相關網站 例如/admin ,login/ ,home.php ,/root/等等 但是又不一定於是互聯網上就有一些words清單 像是 裡面就有存放各種可能的目錄名稱 例如給定一個網址在網址尾端增加/admin"有可能"就會連到後台 但是人手工一個一個去試去猜實
Thumbnail
到目前為止,我們都還是在附檔名為.py的Python檔案執行程式碼,當程式需要與外部的檔案互動,例如讀取文字、表格、或是影像來做分析,或是把程式執行的結果儲存下來,就需要能夠存取外部的檔案。例如,在上一節中,當貪食蛇遊戲結束之後,隨著程式停止執行,該次的分數也就被丟棄,若能將分數記錄下來,下次遊戲開
Thumbnail
到目前為止,我們都還是在附檔名為.py的Python檔案執行程式碼,當程式需要與外部的檔案互動,例如讀取文字、表格、或是影像來做分析,或是把程式執行的結果儲存下來,就需要能夠存取外部的檔案。例如,在上一節中,當貪食蛇遊戲結束之後,隨著程式停止執行,該次的分數也就被丟棄,若能將分數記錄下來,下次遊戲開
Thumbnail
經過數個月的洗禮,統整而出的推薦程式學習網站。
Thumbnail
經過數個月的洗禮,統整而出的推薦程式學習網站。
Thumbnail
pyquery語法類似jquery,有什麼問題可以查詢jquery看看怎麼用jquery的教學 選id: # 如果有id優先使用 選class: . 要確保沒有相同的class,class裡面有空格用.取代空格 同時選多個 用逗號區隔 '.article-header,.article-conten
Thumbnail
pyquery語法類似jquery,有什麼問題可以查詢jquery看看怎麼用jquery的教學 選id: # 如果有id優先使用 選class: . 要確保沒有相同的class,class裡面有空格用.取代空格 同時選多個 用逗號區隔 '.article-header,.article-conten
Thumbnail
開啟F12開發人工具 取得CSV下載網址 利用巨集協助編寫簡易程式
Thumbnail
開啟F12開發人工具 取得CSV下載網址 利用巨集協助編寫簡易程式
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News