在這一課中,我們將學習如何在Python中使用beautifulsoup4
和requests
模塊進行基本的網頁爬蟲。
首先,你需要安裝beautifulsoup4
模塊,如果你還沒有安裝它的話:
Copy code
pip install beautifulsoup4
然後你可以運行下面的範例代碼。
fetch_webpage.py
pythonCopy code
import requests
from bs4 import BeautifulSoup
# 發送GET請求到網站
response = requests.get('https://www.example.com')
# 解析HTML內容
soup = BeautifulSoup(response.content, 'html.parser')
# 輸出HTML內容
print(soup.prettify())
extract_elements.py
pythonCopy code
import requests
from bs4 import BeautifulSoup
response = requests.get('https://www.example.com')
soup = BeautifulSoup(response.content, 'html.parser')
# 提取標題
title = soup.find('title')
# 提取所有的超連結
links = soup.find_all('a')
print('Title:', title.text)
print('Links:')
for link in links:
print(link.get('href'))
請在相應的檔案中輸入並運行上述代碼片段。
網頁爬蟲是Python編程的一個重要組件,這些範例應該幫助你上手。