[Python API debugging] 用 urllib3 呼叫 API, 有時失敗、有時成功

更新於 發佈於 閱讀時間約 9 分鐘

Background

使用 Python 呼叫某第三方服務的 report API,希望取得一些資料來做廣告成效報表,初步使用 urllib3 來實作發送 HTTP 請求

遇到的問題

  • Local (Laptop) 環境,請求 API 失敗(返回 400 Error)
  • Production (Jenkins) 環境第一次成功,之後請求失敗(返回 400 Error)

Issue Analysis

使用 urllib3 時常失敗,但使用 curl 測試請求,發現可以穩定成功。

  • 代表 API 可能對 urllib3curl 回應的行為是不同的
  • 懷疑 API 服務對 Header 有流量或其他限制,另外 Return 400 error 感覺是工程師亂寫的,參考就好


嘗試方法:

  1. 使用 urllib3, 改 User-agent 可能有用
    • 可能的原因:實際上也有很多 API 服務,為了防爬蟲,會針對常見的 library 的 user-agent or connection 的方式有阻擋限制
  2. 直接改用 pycurl 方式連線
    • 可能的原因:urllib3 和 curl 的底層連線方式不同

pycurl vs. urllib3

raw-image


Solution

  1. 先在 urllib3 裡指定 User-Agent 到 curl, 但仍然不 work.
  2. 將原本 urllib3 的實作,改為 pycurl 的實作方式
  • urllib3
    # Default Header
    {
    "headers": {
    "Host": "httpbin.org",
    "Accept-Encoding": "identity",
    "User-Agent": "python-urllib3/1.26.16",
    "Accept": "*/*",
    "Connection": "close"
    }
    }
    # Example
    import urllib3
    from urllib3.util.retry import Retry
    from urllib3.exceptions import HTTPError
    import time

    # 設定重試機制
    retry_strategy = Retry(
    total=5, # 總共重試 5 次
    backoff_factor=1, # 每次失敗後等待時間 (1s, 2s, 4s, 8s, 16s...)
    status_forcelist=[500, 502, 503, 504], # 這些錯誤碼時才會重試
    allowed_methods=["GET"], # 只對 GET 方法啟用重試
    )

    # 建立連接池並套用重試策略
    http = urllib3.PoolManager(retries=retry_strategy)

    # 發送請求並加上錯誤處理
    def fetch_data(url):
    try:
    response = http.request("GET", url)
    response.raise_for_status() # 如果 HTTP 狀態碼錯誤,會拋出例外
    print(f"Status Code: {response.status}")
    print("Response Body:", response.data.decode("utf-8"))
    except HTTPError as e:
    print(f"HTTP 錯誤: {e}")
    except Exception as e:
    print(f"其他錯誤: {e}")

    # 執行 API 請求
    fetch_data(url = "<https://jsonplaceholder.typicode.com/posts/1>")


  • pycurl
    # Default header
    {
    "headers": {
    "Host": "httpbin.org",
    "User-Agent": "PycURL/7.43.0.6 libcurl/7.68.0 OpenSSL/1.1.1f zlib/1.2.11",
    "Accept": "*/*"
    }
    }
# Example
import pycurl
import certifi
import io
import time

# 最大重試次數
MAX_RETRIES = 5
BACKOFF_FACTOR = 1 # 每次失敗後等待 (1s, 2s, 4s, 8s, 16s)

def fetch_data(url):
retries = 0
while retries < MAX_RETRIES:
try:
buffer = io.BytesIO() # 用來存放回應的資料

# 設定 pycurl 參數
curl = pycurl.Curl()
curl.setopt(pycurl.URL, url) # 設定 URL
curl.setopt(pycurl.WRITEFUNCTION, buffer.write) # 把回應寫入 buffer
curl.setopt(pycurl.CAINFO, certifi.where()) # 設定 SSL 憑證
curl.setopt(pycurl.FOLLOWLOCATION, True) # 自動跟隨重定向

# 執行請求
curl.perform()

# 獲取 HTTP 狀態碼
status_code = curl.getinfo(pycurl.RESPONSE_CODE)
curl.close()

if status_code == 200:
print(f"Status Code: {status_code}")
print("Response Body:", buffer.getvalue().decode("utf-8"))
return
else:
raise Exception(f"HTTP 錯誤: {status_code}")

except Exception as e:
retries += 1
wait_time = BACKOFF_FACTOR * (2 ** (retries - 1))
print(f"第 {retries} 次重試: {e}, 等待 {wait_time} 秒")
time.sleep(wait_time)

print("請求失敗,已達最大重試次數")

# 執行 API 請求
fetch_data(url = "<https://jsonplaceholder.typicode.com/posts/1>")

avatar-img
0會員
1內容數
留言
avatar-img
留言分享你的想法!
你可能也想看
Google News 追蹤
Thumbnail
※ 什麼是Web API API 就是後端開出來讓前端來用的介面,讓前端與後端可以溝通。 API流程: 終端使用者用任何一種裝置進入瀏覽器。 瀏覽器透過 API 向後端發出請求,請求查詢或修改資料。 後端透過 API 收到前端的請求後,取得資料並回應給前端。 前端渲染畫面,終端使用者
Thumbnail
更快、更短、更即時是串流傳輸必要的元素, 而我們常常在使用Python請求API時都是等待式回應, 也就是一個請求過去之後, 待對方處理完畢後再行回應, 但假設需要下載的檔案、內容非常大時, 是不是使用者只能傻傻的等待整個傳輸結束後才能顯示? 這樣的使用者體驗也實在太糟糕了, 對於使用者來說除了完全
Thumbnail
在實務上,若Python報錯時,若引入的套件越多伴隨的異常訊息會變得越來越複雜,看到一推密密麻麻的內容時,很多時候都想直接跳過。 本文將利用Traceback來讓異常訊息變得更好理解。
Thumbnail
在專案中與廠商測試API回傳的json字串出現無法解析的狀況,記錄發現過程與解決的紀錄,提供程式面和檔案面的解決方法。
Thumbnail
在API介接中使用x-www-form-urlencoded格式時,可能會遇到一些踩坑的情況,本文分享了作者在這方面遇到的問題和解決方法。
Thumbnail
當我們在撰寫一套系統的時候, 總是會提供一個介面讓使用者來觸發功能模組並回傳使用者所需的請求, 而傳統的安裝包模式總是太侷限, 需要個別主機獨立安裝, 相當繁瑣, 但隨著時代的演進與互聯網的崛起, 大部分的工作都可以藉由網頁端、裝置端來觸發, 而伺服端則是負責接收指令、運算與回傳結果, 雲端
Thumbnail
當這產品的這個 API 被呼叫,再從回傳內容的某個欄位欄位來判斷,只要“這個欄位”顯示 false 就代表不支援」,雖然這樣的設計也能滿足功能需求…
Thumbnail
先前幾篇筆記介紹了網路請求,瀏覽器儲存資料的方式,那麼實務上,前端最常需要發送網路請求的時候,就是透過呼叫 API,去向後端工程師發送/請求資料,所以今天來記錄什麼是 API吧!
Thumbnail
這個問題發生在我們開發Python的Websocket Server時, 使用以下的程式碼架設服務 start_server = websockets.serve(server, 'localhost', args.port) async with start_server:
Thumbnail
Request內容 package main import ( "fmt" "log" "net/http" "strings" ) func request(w http.ResponseWriter, r *http.Request) { //這些資訊是輸出到伺服器端的列印訊息
Thumbnail
※ 什麼是Web API API 就是後端開出來讓前端來用的介面,讓前端與後端可以溝通。 API流程: 終端使用者用任何一種裝置進入瀏覽器。 瀏覽器透過 API 向後端發出請求,請求查詢或修改資料。 後端透過 API 收到前端的請求後,取得資料並回應給前端。 前端渲染畫面,終端使用者
Thumbnail
更快、更短、更即時是串流傳輸必要的元素, 而我們常常在使用Python請求API時都是等待式回應, 也就是一個請求過去之後, 待對方處理完畢後再行回應, 但假設需要下載的檔案、內容非常大時, 是不是使用者只能傻傻的等待整個傳輸結束後才能顯示? 這樣的使用者體驗也實在太糟糕了, 對於使用者來說除了完全
Thumbnail
在實務上,若Python報錯時,若引入的套件越多伴隨的異常訊息會變得越來越複雜,看到一推密密麻麻的內容時,很多時候都想直接跳過。 本文將利用Traceback來讓異常訊息變得更好理解。
Thumbnail
在專案中與廠商測試API回傳的json字串出現無法解析的狀況,記錄發現過程與解決的紀錄,提供程式面和檔案面的解決方法。
Thumbnail
在API介接中使用x-www-form-urlencoded格式時,可能會遇到一些踩坑的情況,本文分享了作者在這方面遇到的問題和解決方法。
Thumbnail
當我們在撰寫一套系統的時候, 總是會提供一個介面讓使用者來觸發功能模組並回傳使用者所需的請求, 而傳統的安裝包模式總是太侷限, 需要個別主機獨立安裝, 相當繁瑣, 但隨著時代的演進與互聯網的崛起, 大部分的工作都可以藉由網頁端、裝置端來觸發, 而伺服端則是負責接收指令、運算與回傳結果, 雲端
Thumbnail
當這產品的這個 API 被呼叫,再從回傳內容的某個欄位欄位來判斷,只要“這個欄位”顯示 false 就代表不支援」,雖然這樣的設計也能滿足功能需求…
Thumbnail
先前幾篇筆記介紹了網路請求,瀏覽器儲存資料的方式,那麼實務上,前端最常需要發送網路請求的時候,就是透過呼叫 API,去向後端工程師發送/請求資料,所以今天來記錄什麼是 API吧!
Thumbnail
這個問題發生在我們開發Python的Websocket Server時, 使用以下的程式碼架設服務 start_server = websockets.serve(server, 'localhost', args.port) async with start_server:
Thumbnail
Request內容 package main import ( "fmt" "log" "net/http" "strings" ) func request(w http.ResponseWriter, r *http.Request) { //這些資訊是輸出到伺服器端的列印訊息