python 爬蟲玉山匯率並部署到aws lambda

閱讀時間約 17 分鐘

最近開了複委託打算定期定額買美股,主要因為交割戶是設定外幣帳戶交割,先前設置了常用銀行的外幣到價通知,但是美金最近一直逆空高灰,幾乎不會啟動到價通知🥲,只好一直關注銀行即期價格,但因為上班常常會忘記要看一下外幣網銀換匯優惠,故想說練習python之餘,並順便做個爬蟲將資料發送到line群組,方便上班時看一下網銀優惠價格,以下是練習實作筆記供參,目前還是小菜雞,如有不對的地方歡迎指正

『實作流程』

這邊會使用github上開源工具 docker-selenium-lambda 幫助更快部署到aws lambda上,在搭配EventBridge 去指定啟動lambda的時間,於爬蟲取得匯率結果後發送line notify 到群組上

// git clone 開源工具
git clone ​https://github.com/umihico/docker-selenium-lambda.git


clone完成後可以看到工具檔案結構,這個開源專案方便我們練習aws lambda,利用最小化的方式完成功能實作,也不需擔心chrome、selenium與python造成版本衝突(python就是很容易套件衝突,哭~~),這邊實作我們不使用serverless.yaml的方式執行(主要是我還沒研究到這邊),單純只使用這邊的dockerfile檔案進行部署

圖一

圖一

接著我們要修改main.py這個檔案,一開始替我們先載入了selenium了,而def handler則是aws lambda 執行時的啟動function(這邊對應到Dockerfile的CMD [ "main.handler" ]),所以到時候程式邏輯我們會寫在這邊

圖二

圖二

這邊我習慣將chrome 設定另外寫在一個function裡,在到handler去呼叫

def get_chrome_driver():
options = webdriver.ChromeOptions()
options.binary_location = '/opt/chrome/chrome'
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument("--disable-gpu")
options.add_argument("--window-size=1280x1696")
options.add_argument("--single-process")
options.add_argument("--disable-dev-shm-usage")
options.add_argument("--disable-dev-tools")
options.add_argument("--no-zygote")
options.add_argument(f"--user-data-dir={mkdtemp()}")
options.add_argument(f"--data-path={mkdtemp()}")
options.add_argument(f"--disk-cache-dir={mkdtemp()}")
options.add_argument("--remote-debugging-port=9222")
options.add_argument("--incognito") # 無痕模式
chrome = webdriver.Chrome("/opt/chromedriver",
options=options)
return chrome

接著我們開始撰寫爬蟲玉山匯率網站程式邏輯

def handler(event=None, context=None):
driver = get_chrome_driver()
URL = "https://www.esunbank.com/zh-tw/personal/deposit/rate/forex/foreign-exchange-rates" # 玉山匯率網址

# 初始化一個空的字典
currency_dict = {}
for i in range(len(driver.find_elements(By.CLASS_NAME, 'col-auto.px-3.col-lg-5.title-item'))):
item_name = driver.find_elements(By.CLASS_NAME, 'col-auto.px-3.col-lg-5.title-item')[i].text
BBoardRate = driver.find_elements(By.CLASS_NAME, 'BBoardRate')[i].text
SBoardRate = driver.find_elements(By.CLASS_NAME, 'SBoardRate')[i].text
BuyIncreaseRate = driver.find_elements(By.CLASS_NAME, 'BuyIncreaseRate')[i].text
SellDecreaseRate = driver.find_elements(By.CLASS_NAME, 'SellDecreaseRate')[i].text
CashBBoardRate = driver.find_elements(By.CLASS_NAME, 'CashBBoardRate')[i].text
CashSBoardRate = driver.find_elements(By.CLASS_NAME, 'CashSBoardRate')[i].text
# 將貨幣資料轉存到字典
currency_info = {
'即期匯率買入': BBoardRate,
'即期匯率賣出': SBoardRate,
'網銀優惠買入': BuyIncreaseRate,
'網銀優惠賣出': SellDecreaseRate,
'現金買入': CashBBoardRate,
'現金賣出': CashSBoardRate
}

# 將取得的匯率存到 currency_dict
currency_dict[item_name] = currency_info

# 提取特定貨幣資料
currencies_to_extract = ['美元', '日圓']
selected_currency_dict = {currency: currency_dict[currency] for currency in currencies_to_extract}

撰寫程式時,有使用一些套件方法,故這邊需要import套件資料,套件使用了selenium、dotenv、pandas、requests,需要額外安裝,故還要設定dockerfile檔案,避免執行時找不到套件

from selenium import webdriver
from tempfile import mkdtemp
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from dotenv import load_dotenv
import time
import pandas as pd
import time
import requests
import os

dockerfile設定資料如下

RUN pip install requests
RUN pip install pandas
RUN pip install python-dotenv
圖三

圖三

因為這邊爬取了全部匯率,但我只需要追蹤['美元', '日圓'],額外過濾屬於美元日圓的資料,印出整理後的資料


# 提取特定貨幣資料
currencies_to_extract = ['美元', '日圓']
selected_currency_dict = {currency: currency_dict[currency] for currency in currencies_to_extract}
print(selected_currency_dict)
圖四

圖四

確定需要的資料都正常後,這邊開始設定line notify 的通知,首先先連結要通知的群組並產生權杖

LINE Notify 連結 : https://notify-bot.line.me/zh_TW/

選擇個人頁面進入,可以看到已經連動的服務

圖五

圖五

接著移到畫面下方有一個發行存取權杖,選擇發行權杖

圖六

圖六

會彈出設定頁面,要你填寫權杖名稱,這邊設定會是到時候顯示的名字(例如匯率通知),設定好後連結到你要通知的群組,並點擊發行,就可以取得權杖了,記得這邊要記得保存好權杖,因為離開後就無法再次取得

圖七

圖七

接著我們開始撰寫通知內容,這邊為了避免將token曝露出來,有使用到load_dotenv這個方法,而外創建一個環境變數

// 創建一個名為.env環境變數

touch .env​

接著指定dotenv_path路徑並使用load_dotenv方法載入,import os 並用os.getenv('LINE_NOTIFY_TOKEN'),取得寫在環境變數的檔案裡面。

這邊因為使用.env檔案,故在dockerfile裡面也需要將.env檔案複製到docker裡,可參考圖三

COPY .env ./

如果是直接clone我的專案的話,執行步驟如下

// 複製.env.example 並重新命名為 .env檔案
cp .env.example .env​

// 接著將line notify 權杖填入​.env檔案裡
LINE_NOTIFY_TOKEN = '你的權杖'
# 指定.env文件的路径
dotenv_path = '.env'

# 加载.env文件中的环境变量
load_dotenv(dotenv_path)

# 访问.env文件中的环境变量
line_notify_token = os.getenv('LINE_NOTIFY_TOKEN')


def line_notify(message):
# LINE Notify 權杖
token = line_notify_token

# HTTP 標頭參數與資料
headers = {"Authorization": "Bearer " + token}
data = {'message': message}
# 以 requests 發送 POST 請求
requests.post("https://notify-api.line.me/api/notify", headers=headers, data=data)

完成line notify通知function 後,我們在 selected_currency_dict 這行下繼續往下撰寫,這邊需要將字典轉換成字串形式塞入到message裡,接著執行line_notify通知

message = ""
for currency, info in selected_currency_dict.items():
message += f"{currency}:\n"
for key, value in info.items():
message += f"{key}: {value}\n"
message += "\n"

line_notify("\n" + message)

以上程式撰寫的部分就完成了,接著就是執行aws上的設定,首先你要先有一個aws帳號,開立帳號這邊就不細講

首先先將docker 部署到ECR上,選擇create repository

raw-image

設定你要取的名字,這邊visibility settings 我選擇不公開

raw-image

設定完後可以到前頁打勾以創建的ECR,點擊view push commands這邊會給出執行步驟讓你可以方便push 本地docker 到aws,基本上照步驟執行即可,如果是mac版本的話,指令要再加上 --platform=linux/amd64

docker build -t rate-crawler-selenium . --platform=linux/amd64
raw-image

部署完畢後點進去可以看到加上了tag lastest

raw-image

接著來到lambda創建function,點擊create function

raw-image

接著選擇container image 並點擊browse images可以選擇ECR的容器

raw-image

接著選擇下拉找到當時命名的容器名字打勾選擇image

raw-image

接著再設定兩個部分,一個選擇x86結構,根create a new role 這邊是設定他的permissions,接著往下滑有一個create function,就完成拉,接著等待部署完成後就會看到下一張圖的畫面

raw-image
raw-image

因為這邊每次執行時都會啟動一次容器執行,故這邊需要額外設定timeout時間,不然會因為容器還沒跑完,就已經timeout fail了,Memory也暫時先設定到512MB,實測預設128MB會有不足現象(之後再優化)

raw-image

接著我們執行一下 test 來這測試我們的程式碼是否有正常執行,新增一個new event,因為不用帶入JSON,我把系統預設的清除,接著按save,就會長成下面這個樣子,接著我們點擊TEST按鈕

raw-image

===============系統執行中===============

爬完匯率資料後就會正常發送到line notify 結果如下,這樣就大功完成拉

raw-image
貼心提醒:在執行爬蟲時,也要避免多次請求造成對方網站的困擾,建議不要執行太多次的請求,當個友善爬蟲者~共勉之

上述只是簡單快速練習製作出匯率爬蟲,爬蟲網站的挑選也是因為我購買外幣是使用玉山銀,所以匯率購買需要參考玉山網銀優惠賣出價格,故為了方便才需要爬下來line群組方便群組內的朋友們可以按照自己需要的價格去換外幣,供參考

這邊程式碼的部分也一併上傳到我的github哩,也歡迎大家取用下載參考,如有更好的方式也歡迎大家一起討論指教~~一起從小菜雞成為大菜雞💪💪💪

接著是設定EventBridge 去指定啟動lambda排程,利用設定crontab shell指令幫助我們處理例行性任務,但前提我們必須要先理解什麼是crontab?文章參考連結

理解 crontab 幫助處理例行性任務

參考連結

https://github.com/dale0502/rate-crawler-selenium







13會員
37內容數
學涯無止境,透過每日or每週模仿學習筆記,不管是哪些領域也好,總有一天也可以從菜雞變小雞
留言0
查看全部
發表第一個留言支持創作者!
DDDDD的沙龍 的其他內容
以前公司在對於 git 合併衝突的解法通常是將master合回自己的分支接著開發,也習慣了這種作法,但線圖就是有點醜,後來到了新公司之後規定強制要使用rebase的方式處理,在此紀錄git rebase 處理merge 衝突。
菜雞成長故事 寫這一篇主因也是因為身邊朋友陸陸續續想往軟體業發展,或是想動手做做小專案,故才成就了這一篇心路歷程,這邊會介紹我的背景、學習管道跟我如何選擇第一個程式語言作為敲門磚跟學習時間,希望能幫助還在努力中或是預計要轉職的各位有一個方向或是參考?(雖然我依然還是一個小菜雞,請鞭小力)
isset(), empty() 和 is_null() 是 PHP 中常用的三個函數,它們用於檢查變量是否已經設置或是否為空值。以下是它們的區別:
以前公司在對於 git 合併衝突的解法通常是將master合回自己的分支接著開發,也習慣了這種作法,但線圖就是有點醜,後來到了新公司之後規定強制要使用rebase的方式處理,在此紀錄git rebase 處理merge 衝突。
菜雞成長故事 寫這一篇主因也是因為身邊朋友陸陸續續想往軟體業發展,或是想動手做做小專案,故才成就了這一篇心路歷程,這邊會介紹我的背景、學習管道跟我如何選擇第一個程式語言作為敲門磚跟學習時間,希望能幫助還在努力中或是預計要轉職的各位有一個方向或是參考?(雖然我依然還是一個小菜雞,請鞭小力)
isset(), empty() 和 is_null() 是 PHP 中常用的三個函數,它們用於檢查變量是否已經設置或是否為空值。以下是它們的區別:
你可能也想看
Thumbnail
八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
網路爬蟲(web crawler),也叫網路蜘蛛(spider) 是一個強大的自動化工具,可以自由瀏覽、擷取訪問網頁的各項資訊,例如:新聞文章、電商商品價格,當專案中需要添加外部數據或進行大量資料收集時,網路爬蟲就是一個非常實用的工具。
在這篇教學中,我們將使用 Python 的 requests 和 BeautifulSoup 套件,來爬取台積電股價的最新交易日收盤價。
Thumbnail
上一篇我們已經介紹過Google Colab的基本用法,建議可以先行閱讀「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」,進行基本概念與環境的建置再進行下一步會比較容易進行學習。 雖然網路上已經提供非常多的股市資訊,但各個網站可能都零零散散,難免我們得
Thumbnail
久久沒更新,把這幾天更新在wordpress的文章搬過來囉! 這是篇自己練習爬蟲,並把爬下來的文字內容透過jieba套件分析後產出文字雲的小練習專案
Thumbnail
在上一篇教學中,我們學會如從Goodinfo!中將個股的一些最新與基本資訊爬取下來並打印出來,而先前我們也教過如何爬取台股、全球等較大範圍的新聞爬取,而今天我們就打算將範圍縮小,只針對個股的新聞來進行抓取,那我們就開始今天的教學吧!! 匯入套件 爬取YAHOO!股市
Thumbnail
在上一篇教學中,我們學會了如何將鉅亨網上的新聞爬取下來,並且顯示在LINE BOT中,而我們今天則來教一下如何查詢個股的一些基本資訊,以及最新的開盤價、成交價等資訊吧!!
Thumbnail
在一系列的基礎教學過後,我們終於要來教學跟股票相關的文章了,那就是「如何爬取最新的財經新聞」,別嫌之前的基礎枯燥乏味,基礎打好我們才能夠將功能運用的千變萬化,所以還沒看過之前的基礎教學,可以先去觀看唷!!廢話不多說,我們就開始今天的教學吧!!
Youtube頻道訂閱 免費(Free) 請點擊網址 https://www.youtube.com/channel/UCL-_zTHVc6yrrnSzZChKLjg?sub_confirmation=1 利用jupyter notebook 爬蟲,擷取恆生指數成份股,目前有64檔個股,未來會往1
Thumbnail
有時候需要抓一些網路上的資料 而靜態網頁的呈現方式就是 html 這篇記錄一下怎麼用 Python3 抓靜態網頁上的文字 (以下部分為網路資料擷取)
Thumbnail
八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
網路爬蟲(web crawler),也叫網路蜘蛛(spider) 是一個強大的自動化工具,可以自由瀏覽、擷取訪問網頁的各項資訊,例如:新聞文章、電商商品價格,當專案中需要添加外部數據或進行大量資料收集時,網路爬蟲就是一個非常實用的工具。
在這篇教學中,我們將使用 Python 的 requests 和 BeautifulSoup 套件,來爬取台積電股價的最新交易日收盤價。
Thumbnail
上一篇我們已經介紹過Google Colab的基本用法,建議可以先行閱讀「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」,進行基本概念與環境的建置再進行下一步會比較容易進行學習。 雖然網路上已經提供非常多的股市資訊,但各個網站可能都零零散散,難免我們得
Thumbnail
久久沒更新,把這幾天更新在wordpress的文章搬過來囉! 這是篇自己練習爬蟲,並把爬下來的文字內容透過jieba套件分析後產出文字雲的小練習專案
Thumbnail
在上一篇教學中,我們學會如從Goodinfo!中將個股的一些最新與基本資訊爬取下來並打印出來,而先前我們也教過如何爬取台股、全球等較大範圍的新聞爬取,而今天我們就打算將範圍縮小,只針對個股的新聞來進行抓取,那我們就開始今天的教學吧!! 匯入套件 爬取YAHOO!股市
Thumbnail
在上一篇教學中,我們學會了如何將鉅亨網上的新聞爬取下來,並且顯示在LINE BOT中,而我們今天則來教一下如何查詢個股的一些基本資訊,以及最新的開盤價、成交價等資訊吧!!
Thumbnail
在一系列的基礎教學過後,我們終於要來教學跟股票相關的文章了,那就是「如何爬取最新的財經新聞」,別嫌之前的基礎枯燥乏味,基礎打好我們才能夠將功能運用的千變萬化,所以還沒看過之前的基礎教學,可以先去觀看唷!!廢話不多說,我們就開始今天的教學吧!!
Youtube頻道訂閱 免費(Free) 請點擊網址 https://www.youtube.com/channel/UCL-_zTHVc6yrrnSzZChKLjg?sub_confirmation=1 利用jupyter notebook 爬蟲,擷取恆生指數成份股,目前有64檔個股,未來會往1
Thumbnail
有時候需要抓一些網路上的資料 而靜態網頁的呈現方式就是 html 這篇記錄一下怎麼用 Python3 抓靜態網頁上的文字 (以下部分為網路資料擷取)