紀錄我問AI生成的筆記
🕷️ 一句話定義
爬蟲就是一種「自動幫你上網抓資料」的程式。💡 比喻理解
想像你是個人類「資料收集員」,每天要做的事情是:
- 打開瀏覽器
- 進到一個網站
- 把你想要的文字、圖片或價格抄下來
- 存進 Excel
這樣做手動太慢了。
於是你寫一個「爬蟲程式」,讓電腦自動幫你做這些動作。
這樣它就像一隻「小蜘蛛(crawler)」在網站上自動爬來爬去、收集資料。
🧱 爬蟲的基本流程
1️⃣ 發送請求
用 Python、JavaScript 或其他語言發送一個「GET」請求去網站。
import requests
html = requests.get("https://example.com").text
2️⃣ 取得 HTML 原始碼
這就是瀏覽器背後的文字版內容。
3️⃣ 解析資料(Parse)
用工具(例如 BeautifulSoup)找出你想要的部分。
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
title = soup.find("h1").text
4️⃣ 儲存結果
把抓下來的文字、圖片連結、價格等等存成 .csv、.xlsx 或資料庫。
📦 你能用爬蟲做什麼?
類型應用商品價格自動蒐集 PChome、蝦皮 價格變化天氣資料抓中央氣象局、Open-Meteo API新聞摘要定期蒐集新聞標題、日期、連結YouTube / IG抓影片標題、按讚數(需遵守規範)公開資料分析政府開放資料平台(JSON / CSV)
⚠️ 注意事項
- 🧑⚖️ 爬蟲不是駭客行為,但必須遵守網站的 robots.txt 與法律規範。
- 🚫 不要爬需要登入、私人或有版權的內容。
- ⚙️ 若網站提供 API,建議使用 API,速度快且合法。
✅ 常見爬蟲工具(以 Python 為主)
工具功能requests發送網頁請求BeautifulSoup解析 HTMLSelenium模擬滑鼠點擊與登入(自動開瀏覽器)Scrapy專業爬蟲框架,適合大量資料抓取















