ajax動態載入怎麼爬??

Vedanta

發佈於python網頁設計

2025/05/28 更新2025/05/28 發佈閱讀 15 分鐘

如題最近在爬一個網站

發現裡面我要的一個地方

就是一個棒球網站裡面的攝影機按鈕(影片網址)

我想取得所有影片網址然後把影片抓下來

如果直接把網址跟XPATH丟給CHATGPT寫爬蟲

結果就是他定位不到

後來檢查原因原來是

那個攝影機是包在一個ajaxTable裡面

所以做法變成要先確認這個ajaxTable有載入否則根本定位不到

解法就是要先點擊球員名字

之後拉到底讓整個table載入

之後才有辦法定位到右邊那排攝影機

貼上我跟chatgpt互動的情況

ChatGPT 說：

這段程式是用 Selenium 模擬瀏覽器，適合動態載入或需要點擊互動的頁面。
id_676979 是你指定的元素ID，你可以換成其他ID或用其他定位方式。
如果需要擷取點擊後展開的特定資料，可能要用更精準的方式找到該資料元素並抓取內容。
如果你想要爬大量資料，記得遵守網站的 robots.txt 和使用規範，避免被封鎖。

如果你有想要我幫你擷取點開後的具體數據，也可以提供更詳細的需求，我幫你客製化。

我說：

點開之後尋找到所有類似 //*[@id="ajaxTable_676979"]這個東西應該是動態載入的所以點開之後還要拉到最下面才會出現

ChatGPT 說：

了解，你的需求是：用 Selenium 打開頁面點擊 id="id_676979" 這個元素展開動態內容展開後頁面會透過 Ajax 載入動態表格（例如 id="ajaxTable_676979"）且動態表格是分頁或滾動加載的，需要滾動到最下面讓資料全部載入

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

def scroll_to_bottom(driver, pause_time=2, max_scrolls=20):
    """滾動到頁面最底部，等待 Ajax 載入"""
    last_height = driver.execute_script("return document.body.scrollHeight")
    scrolls = 0
    while scrolls < max_scrolls:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(pause_time)
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            # 沒有新高度，可能已經到底
            break
        last_height = new_height
        scrolls += 1

# 主程式
driver_path = 'chromedriver'  # 改成你的路徑
options = webdriver.ChromeOptions()
# options.add_argument('--headless')  # 有需要可開啟無頭模式
driver = webdriver.Chrome(executable_path=driver_path, options=options)

try:
    url = 'https://baseballsavant.mlb.com/statcast_search?hfPT=&hfAB=&hfGT=R%7C&hfPR=&hfZ=&hfStadium=&hfBBL=&hfNewZones=&hfPull=&hfC=&hfSea=2025%7C&hfSit=&player_type=pitcher&hfOuts=&hfOpponent=&pitcher_throws=&batter_stands=&hfSA=&game_date_gt=&game_date_lt=&hfMo=&hfTeam=&home_road=&hfRO=&position=&hfInfield=&hfOutfield=&hfInn=&hfBBT=&hfFlag=&metric_1=&group_by=name&min_pitches=0&min_results=0&min_pas=0&sort_col=pitches&player_event_sort=api_p_release_speed&sort_order=desc#results'
    driver.get(url)

    wait = WebDriverWait(driver, 15)
    # 等待 id_676979 可點擊
    target = wait.until(EC.element_to_be_clickable((By.ID, 'id_676979')))
    target.click()
    
    time.sleep(3)  # 等 ajax 開始載入

    # 滾動到底部讓所有資料載入
    scroll_to_bottom(driver, pause_time=3, max_scrolls=30)

    # 等待 ajaxTable_676979 出現
    ajax_table = wait.until(EC.presence_of_element_located((By.ID, 'ajaxTable_676979')))
    
    # 抓取該表格的HTML
    table_html = ajax_table.get_attribute('outerHTML')
    print(table_html)

finally:
    driver.quit()

ChatGPT 說：

程式流程說明用 Selenium 開啟網址等待「id_676979」按鈕可點擊並點擊等待一段時間讓 Ajax 觸發載入執行 scroll_to_bottom 函式，模擬瀏覽器往下滾動多次，讓懶加載資料被全部載入等待動態載入的表格「ajaxTable_676979」出現抓取該表格的 HTML 內容如果你想要解析表格裡的資料，可以接著用 BeautifulSoup 處理 table_html，或者直接用 Selenium 找表格裡的 <tr>、<td> 等元素。如果你需要我幫你寫解析表格欄位的程式，或批量點開多個 id 來抓資料，也可以告訴我！

你說：

ajaxtable載入後尋找//*[@id="ajaxTable_676979"]/tbody/tr[1]/td[15]/a 注意這裡的tr[1]可變也有tr[2]依此類推都要找到

ChatGPT 說：

了解！你的需求是在動態載入的表格 id="ajaxTable_676979" 裡，遍歷所有的 <tr> 列，然後從每一列的第15個 <td> 找 <a> 標籤，將所有這些 <a> 標籤元素找出來。以下示範用 Selenium 來做這件事：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

def scroll_to_bottom(driver, pause_time=2, max_scrolls=20):
    last_height = driver.execute_script("return document.body.scrollHeight")
    scrolls = 0
    while scrolls < max_scrolls:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(pause_time)
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height
        scrolls += 1

driver_path = 'chromedriver'
options = webdriver.ChromeOptions()
# options.add_argument('--headless')
driver = webdriver.Chrome(executable_path=driver_path, options=options)

try:
    url = 'https://baseballsavant.mlb.com/statcast_search?hfPT=&hfAB=&hfGT=R%7C&hfPR=&hfZ=&hfStadium=&hfBBL=&hfNewZones=&hfPull=&hfC=&hfSea=2025%7C&hfSit=&player_type=pitcher&hfOuts=&hfOpponent=&pitcher_throws=&batter_stands=&hfSA=&game_date_gt=&game_date_lt=&hfMo=&hfTeam=&home_road=&hfRO=&position=&hfInfield=&hfOutfield=&hfInn=&hfBBT=&hfFlag=&metric_1=&group_by=name&min_pitches=0&min_results=0&min_pas=0&sort_col=pitches&player_event_sort=api_p_release_speed&sort_order=desc#results'
    driver.get(url)

    wait = WebDriverWait(driver, 15)
    target = wait.until(EC.element_to_be_clickable((By.ID, 'id_676979')))
    target.click()

    time.sleep(3)
    scroll_to_bottom(driver, pause_time=3, max_scrolls=30)

    ajax_table = wait.until(EC.presence_of_element_located((By.ID, 'ajaxTable_676979')))

    # 取得 tbody 裡所有 tr
    rows = ajax_table.find_elements(By.XPATH, ".//tbody/tr")
    print(f"共找到 {len(rows)} 列")

    all_links = []
    for i, row in enumerate(rows, 1):
        try:
            # 找每列第15個td裡的a標籤
            link = row.find_element(By.XPATH, "./td[15]/a")
            href = link.get_attribute('href')
            text = link.text
            print(f"Row {i} - Link text: {text}, href: {href}")
            all_links.append((text, href))
        except Exception as e:
            print(f"Row {i} - 找不到第15欄<a>標籤或發生錯誤: {e}")

finally:
    driver.quit()

重點說明：

用 ajax_table.find_elements(By.XPATH, ".//tbody/tr") 找所有資料列（tr）
每一列用相對 XPath ./td[15]/a 找第15個欄位的 <a>
用 try-except 避免某些列沒有第15欄 <a> 導致錯誤
印出文字和連結，並存在 all_links 裡方便後續處理

你可以改成自己需要的資料儲存或其他後續操作。如果資料很多或有分頁，你也可以做迴圈去點下一頁再抓。

如果想要我幫你做分頁自動翻頁也可以告訴我。

結果

大功告成

所以爬蟲絕對不是把網址跟XPATH丟給CHATGPT他就能幫你寫的

像這種動態載入的情況要像剝洋蔥一樣要先定位到外層點擊後展開內層

才有辦法繼續往內剝

使用者必須先自己在網站上跟所要爬的元素做互動觀察

看看該元素包在那些結構底下

這些結構是否是動態載入的

若是動態載入則要用selenium

模擬使用者操作才能取得

于正龍（Ricky）的沙龍python網頁設計

留言

留言分享你的想法！

于正龍（Ricky）的沙龍

49會員

77內容數

人工智能工作經驗跟研究

于正龍（Ricky）的沙龍的其他內容

2025/05/11

MongoDB啟動與操作

當你使用 MongoDB 時，通常需要先啟動 MongoDB 的伺服器（mongod），然後再透過 MongoDB Shell（mongosh.exe）連線操作資料庫。以下是完整的啟動步驟與指令： ✅ 1. 啟動 MongoDB 伺服器（mongod） mongod --dbpath "C:\你

2025/05/11

MongoDB啟動與操作

2025/05/10

flask 騷操作清單（進階黑魔法級）

🚀 騷操作清單（進階黑魔法級） 1. 自定義 route 裝飾器，讓路由語法更優雅 python 複製編輯# 超騷：讓 route 看起來像函式呼叫 def route(path, **options): def decorator(f): app.add_url_ru

2025/05/10

flask 騷操作清單（進階黑魔法級）

2024/12/25

python網頁設計入門Django起手式

這篇文章主要會介紹怎麼開始使用python Django framework 建立一個網站安裝 anaconda 創建虛擬開發環境 cmd 輸入 conda create -n <自定義虛擬環境名稱> python=3.5 進入虛擬環境 conda activate <自定義虛擬環境名稱>

2024/12/25

python網頁設計入門Django起手式

看更多

你可能也想看

喵喵貓 🐹

雙11必看！我在蝦皮買過最划算的商品＋購物攻略全公開

想在蝦皮雙11買到最划算？這篇文章將分享作者精選的蝦皮高CP值商品，包含HERAN禾聯冷氣、HITACHI日立冰箱、DJI無線麥克風、FUJIFILM拍立得，並提供蝦皮雙11優惠券領取教學、省錢技巧，以及蝦皮分潤計畫介紹，讓你買得開心、省得多！

#雙11#分享#蝦皮

2025/11/05

喵喵貓 🐹

雙11必看！我在蝦皮買過最划算的商品＋購物攻略全公開

#雙11#分享#蝦皮

2025/11/05

涵流筆記 HanFlow

蝦皮1111購物節攻略：全站0元起免運！我推薦的高CP值購物清單與省錢秘訣

2025 蝦皮 1111 購物節又來了！分享三大必買原因：全站 $0 起免運、多重優惠疊加、便利取貨。此外，推薦兩款高 CP 值的即食拉麵（無印良品即食迷你拉麵、維力迷你麵野菜拉麵），並分享如何透過「蝦皮分潤計畫」放大效益，開心購物之餘還能獲得額外收益！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

涵流筆記 HanFlow

蝦皮1111購物節攻略：全站0元起免運！我推薦的高CP值購物清單與省錢秘訣

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Esther寫寫文字~

【小心你的瀏覽器被綁架，搜尋頁面自動跳轉到"假的搜尋引擎"】

#maxask #惡意軟體 #瀏覽器被惡意或廣告工具綁架 URL轉址(重定向、重新導向)：當使用者瀏覽A網址時，自動跳轉到B網址。 - 發生情境：使用edge瀏覽器，使用Google搜尋引擎，搜尋XXX關鍵字，網頁自動跳轉到maxask的搜尋介面。

#資訊安全#maxask#惡意軟體

2024/07/29

Esther寫寫文字~

【小心你的瀏覽器被綁架，搜尋頁面自動跳轉到"假的搜尋引擎"】

#資訊安全#maxask#惡意軟體

2024/07/29

陳法。雜學

「Google」網路【完全免費】無限相簿空間，該要如何輕易達成？

長期用 Google Pixel 的鐵粉們，肯定最不陌生又驕傲，當然是以往的那個無限相簿空間。讓大家從此不用再煩惱，一直都是無腦狂按拍攝鈕，拍那麼多東西該刪什麼好？這蠻偷雞的技巧，就是可以讓你把剛無腦猛拍的各種影像，全部都讓它同步上傳雲端網路空間，達到不再煩惱空間不足的問題。

#Google#Pixel#網路

2024/07/24

陳法。雜學

「Google」網路【完全免費】無限相簿空間，該要如何輕易達成？

#Google#Pixel#網路

2024/07/24

小豆pika的園地

關於Youtube搜尋量，和一些經營的考量

因為最近有在經營Youtube，也有看了一些教學，以及有些經營小心得

#youtube#影片#創作

2024/07/24

小豆pika的園地

關於Youtube搜尋量，和一些經營的考量

因為最近有在經營Youtube，也有看了一些教學，以及有些經營小心得

#youtube#影片#創作

2024/07/24

可轉債老爹聊天室

用Google大神來幫你收集資料

你最近有特別有興趣的產業嗎，有興趣的股票嗎？你是每天去刷網頁嗎？這裡有個方法可以幫你收集相關的網路新聞，固定送到你的信箱。這個方法就是Google帳號的功能，快訊。一、首先你要有一個Google account及Gmail 然後是login in的狀態！二、

2024/07/10

2024/07/10

大多數人瀏覽 Youtube 影片，都曾想將影片下載下來。不管是爲了離綫觀看，還是爲了自己備課，作業ppt，或者做工作簡報等。所以選擇一個靠譜的YouTube下載工具很關鍵。

2024/06/26

2024/06/26

你曾經在網站上迷路過嗎｜或找不到網站資訊｜「資訊架構」的重要性

資訊架構就像是網站的地圖，讓用戶快速找到所需的資訊。好的資訊架構可提升使用者滿意度、強化 SEO、增進擴充性、達成商業目標。資訊架構可透過使用者訪談、卡片分析、競品分析、使用者測試等方法設計。在設計資訊架構時，需考量用戶的認知方式、目標客群、資訊分類等因素。定期檢驗資訊架構，才能確保用戶體驗。

#網頁優化#UIUX#設計網站

2024/06/26

吱吱喳喳

你曾經在網站上迷路過嗎｜或找不到網站資訊｜「資訊架構」的重要性

#網頁優化#UIUX#設計網站

2024/06/26

性感雞塊男爵

【數位行銷】SEO 大揭密！4 招提升你的搜尋結果排名

近期 Google 搜尋引擎API機密文件的外流事件，絕對是近期震撼數位行銷世界的一大頭條，其內容揭示了一些有關 Google 搜尋結果生成原理的重要細節。今天本男爵就來跟各位聊聊這其中獲得的寶貴洞察，或許會對您在設計網站內容時有一些不同的想法！

#SEO#GoogleSEO#數位行銷

2024/06/24

性感雞塊男爵

【數位行銷】SEO 大揭密！4 招提升你的搜尋結果排名

#SEO#GoogleSEO#數位行銷

2024/06/24

Amber hh的沙龍

什麼是網址 URL？如何取得網址的參數？

之前分享過【網路請求帶參數的方式】，開發者可以透過 URL 代入參數，來向伺服器請求特定的資源，我們當然也可以擷取 URL 的內容，來做為後續開發的判斷條件，這篇就來記錄一下，網址(URL) 和域名(Domain) 是什麼，以及如何取得網址的參數吧！我們常說的網址連結 URL 完整名稱是 U

2024/03/03

2024/03/03

【運科竹愛閱讀：《讓人一搜尋就找到你：破解搜尋引擎的流量密碼，首席SEO優化師讓你的曝光飆升30％！》】

在當今數位時代，搜尋引擎排名對於各大企業、各式品牌，以及創作者的重要性已經不言而喻。然而，許多人在追求「高排名」時卻陷入了一些「誤區」，例如：砸大錢買不知所謂的社群廣告、常自......

#我是運科竹#運動科學#健康科學

2024/03/01

我是運科竹!

【運科竹愛閱讀：《讓人一搜尋就找到你：破解搜尋引擎的流量密碼，首席SEO優化師讓你的曝光飆升30％！》】

#我是運科竹#運動科學#健康科學

2024/03/01

自由豐盛社群 Glowing Up

網址尾端的程式碼可以做很多事

有時候，最簡單的事情可以做很多事！如果你點擊活動廣告，你會注意到網址尾端會有一些額外的“代碼”。類似：“?utm_source=XXXXX” 「XXXXX」是對放置連結的位置的描述，以便活動商追蹤來源。但這僅用於追蹤數據。下次當你要分享其他人的網站或內容時，使用相同的“程式碼”看看

2024/01/09

2024/01/09

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News