Python3 靜態爬蟲

LifeOfFProgrammer

2019/06/26 更新2019/06/26 發佈閱讀 6 分鐘

有時候需要抓一些網路上的資料

而靜態網頁的呈現方式就是 html

這篇記錄一下怎麼用 Python3 抓靜態網頁上的文字

(以下部分為網路資料擷取)

開始

這裡以抓 ptt 網頁版為範例

網址 : https://disp.cc/b/PttHot

要爬靜態 html 之前

必須先了解"你要抓的文字"是在哪裡

開啟網頁後，按下 F12 可以看到每個元素對應到的 html 位置

左鍵按一下左下角的箭頭框框 (或按 ctrl+shift+C)

再把滑鼠指到你要抓的文字

然後再按一下左鍵

可以看到這行文字出現在 html 的哪個位置
靜態爬蟲需要這樣的資訊

程式碼

首先我們必須先有辦法存取這個網頁

這個部分 python3 已經有urllib.request包好了

如下

import urllib.request
url = "https://disp.cc/b/PttHot" # The website url you want to access
response = urllib.request.urlopen(url)
data = response.read()
text = data.decode('utf-8-sig')
print(text)

執行

py -3 main.py

可以看到這個網頁目前的 html 已經都抓下來了

現在的目標就是抓取"你要抓的文字"

這個部分 python3 已經有BeautifulSoup包好了

from bs4 import BeautifulSoup
soup = BeautifulSoup(text, "lxml") # parse

回到剛剛上面利用 F12 所看到的 html 發現它的標題內容都是放在

span class = 'L34 nowrap listTitle', id = 'titleXXXXX'

其中 id 的部分可以看到是第幾篇的意思, title52419, 第 52419 篇

也很剛好的, 在 list-num 就有顯示是第幾篇

span class = 'list-num'

因此這裡用 BeautifulSoup 裡面 find_all() 的方法這裡帶有 span 裡面的 attribute 例如要找 list-num

soup = BeautifulSoup(text, "lxml") # parse
listIdxs = soup.body.find_all('span', attrs={'class':'list-num'}) # get all list

例如要找標題內容

targets = soup.body.find_all('span', attrs={'class':'L34 nowrap listTitle', 'id':'title52419'})

import urllib.request
from bs4 import BeautifulSoup

def downLoad():
url = "https://disp.cc/b/PttHot"

response = urllib.request.urlopen(url)
data = response.read() # a `bytes` object
text = data.decode('utf-8-sig') # a `str`; this step can't be used if data is binary
return text

print("downloading.. ")
print("=============================")
text = downLoad()
soup = BeautifulSoup(text, "lxml") # parse
listIdxs = soup.body.find_all('span', attrs={'class':'list-num'}) # get all list
for listIdx in listIdxs:
targets = soup.body.find_all('span', attrs={'class':'L34 nowrap listTitle', 'id':'title'+listIdx.text})
for ta in targets:
print(ta.text)

執行結果

參考

https://www.ptt.cc/bbs/Python/M.1412756706.A.390.html

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class

https://beautiful-soup-4.readthedocs.io/en/latest/

留言

留言分享你的想法！

LifeOfFProgrammer的沙龍

1會員

2內容數

你可能也想看

暖茶文鳥町｜鳥日常·插畫

暖家對抗潮濕對策：防潮好物分享

暖家的防潮、除濕用品分享，若你知道有什麼CP值更高的用品，請推薦給我！同時也分享蝦皮分潤計畫的好處。

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/11/26

暖茶文鳥町｜鳥日常·插畫

暖家對抗潮濕對策：防潮好物分享

暖家的防潮、除濕用品分享，若你知道有什麼CP值更高的用品，請推薦給我！同時也分享蝦皮分潤計畫的好處。

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/11/26

氵函 🐈‍⬛ 動植物溝通

寒流、冬天保暖佈置❄️手腳冰冷必備怕冷禦寒小物｜CP值爆表、實用防寒小物全指南｜蝦皮雙12這樣買最省

寒流來襲，你準備好禦寒小物了嗎？小吉推薦實際使用過、愛用且會回購的防寒小物，強調兼具美感與實用的選品原則。居家必備的地毯、手腳保暖小物（貓咪襪子、防水鋪棉手套、絨毛室內拖鞋）、電力保暖用品（電動暖暖包、可定時電熱毯），泡腳桶、浴室電暖器。特別整理蝦皮雙 12 活動攻略，並邀請你透過連結購買加入分潤。

#蝦皮雙十二#蝦皮雙12#雙十二

2025/11/27

氵函 🐈‍⬛ 動植物溝通

寒流、冬天保暖佈置❄️手腳冰冷必備怕冷禦寒小物｜CP值爆表、實用防寒小物全指南｜蝦皮雙12這樣買最省

#蝦皮雙十二#蝦皮雙12#雙十二

2025/11/27

N S的沙龍

產後媽媽的真實告白：BEAUTY CLUB 日夜膠原蛋白如何讓我找回好氣色與睡眠節奏

生完寶寶後我真的深刻感受到一句話：「睡不好，皮膚就先離家出走」常常半夜起來哄寶寶、睡眠不規律膚況也跟著黯淡、失去彈性>< 身為剛生完孩子的新手媽媽，我現在最在意的兩件事就是：皮膚要彈潤、睡眠要穩定！！這陣子我開始嘗試日夜搭配的膠原蛋白： 🌞 TIMESEAL 日間款

#膠原蛋白

2025/12/03

N S的沙龍

產後媽媽的真實告白：BEAUTY CLUB 日夜膠原蛋白如何讓我找回好氣色與睡眠節奏

#膠原蛋白

2025/12/03

Hack_Z的沙龍

小白學Python的第二十堂課

在這一課中，我們將學習如何在Python中使用beautifulsoup4和requests模塊進行基本的網頁爬蟲。首先，你需要安裝beautifulsoup4模塊，如果你還沒有安裝它的話:

2023/09/04

Hack_Z的沙龍

小白學Python的第二十堂課

在這一課中，我們將學習如何在Python中使用beautifulsoup4和requests模塊進行基本的網頁爬蟲。首先，你需要安裝beautifulsoup4模塊，如果你還沒有安裝它的話:

2023/09/04

好奇的小仙人掌的沙龍

Python學習筆記8-文件的讀取和寫入

在這篇文章中，我將簡要介紹如何使用Python來處理文件，包括如何打開、讀取、寫入和關閉文件。我也會給出一些範例程式碼和註解，讓你更容易理解和學習。要打開一個文件，我們需要使用open()函數，它接受文件名稱和模式兩個參數。文件名稱是一個字串，表示要訪問的文件的路徑和名稱。

2023/06/24

2023/06/24

【Google Colab Python系列】該如何設計自己的爬蟲來抓取Html資料？

上一篇我們已經介紹過Google Colab的基本用法，建議可以先行閱讀「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」，進行基本概念與環境的建置再進行下一步會比較容易進行學習。雖然網路上已經提供非常多的股市資訊，但各個網站可能都零零散散，難免我們得

#程式語言#python#GoogleColab

2023/06/10

阿Han的沙龍

【Google Colab Python系列】該如何設計自己的爬蟲來抓取Html資料？

#程式語言#python#GoogleColab

2023/06/10

偽命名培養體

[人工智障計畫] 難眠之頁 #4 | 網頁是正途！

其實要為專案建立操作介面的方式很多，除了網頁之外，還能另外寫個專門的手機 APP 連線，或是乾脆升級算法，讓我們能隨口喊一聲「嘿OO！」就搞定，不過⋯

#人工智障計畫#難眠之頁#專案

2023/03/29

偽命名培養體

[人工智障計畫] 難眠之頁 #4 | 網頁是正途！

#人工智障計畫#難眠之頁#專案

2023/03/29

于正龍（Ricky）的沙龍

暴力測試URL(暴力嘗試網站目錄)

一個網站可能除了首頁以外還會有其他的相關網站例如/admin ,login/ ,home.php ,/root/等等但是又不一定於是互聯網上就有一些words清單像是裡面就有存放各種可能的目錄名稱例如給定一個網址在網址尾端增加/admin"有可能"就會連到後台但是人手工一個一個去試去猜實

2023/03/20

2023/03/20

不間斷 Python 挑戰 Day 27 - 檔案、資料夾與路徑

到目前為止，我們都還是在附檔名為.py的Python檔案執行程式碼，當程式需要與外部的檔案互動，例如讀取文字、表格、或是影像來做分析，或是把程式執行的結果儲存下來，就需要能夠存取外部的檔案。例如，在上一節中，當貪食蛇遊戲結束之後，隨著程式停止執行，該次的分數也就被丟棄，若能將分數記錄下來，下次遊戲開

#python#file#path

2022/03/02