2023-09-04|閱讀時間 ‧ 約 3 分鐘

小白學Python的第二十堂課

    在這一課中,我們將學習如何在Python中使用beautifulsoup4requests模塊進行基本的網頁爬蟲。

    首先,你需要安裝beautifulsoup4模塊,如果你還沒有安裝它的話:

    Copy code
    pip install beautifulsoup4

    然後你可以運行下面的範例代碼。

    1. 抓取網頁內容 我們將從抓取網頁的HTML內容開始。
    • 檔名: fetch_webpage.py
    pythonCopy code
    import requests
    from bs4 import BeautifulSoup

    # 發送GET請求到網站
    response = requests.get('https://www.example.com')

    # 解析HTML內容
    soup = BeautifulSoup(response.content, 'html.parser')

    # 輸出HTML內容
    print(soup.prettify())
    1. 提取網頁元素 接下來,我們將從網頁中提取一些元素。
    • 檔名: extract_elements.py
    pythonCopy code
    import requests
    from bs4 import BeautifulSoup

    response = requests.get('https://www.example.com')
    soup = BeautifulSoup(response.content, 'html.parser')

    # 提取標題
    title = soup.find('title')

    # 提取所有的超連結
    links = soup.find_all('a')

    print('Title:', title.text)
    print('Links:')
    for link in links:
    print(link.get('href'))

    請在相應的檔案中輸入並運行上述代碼片段。

    網頁爬蟲是Python編程的一個重要組件,這些範例應該幫助你上手。

    分享至
    成為作者繼續創作的動力吧!
    © 2024 vocus All rights reserved.