RPA 功能|一鍵爬蟲,抓取網頁資訊:UiPath Table Extraction!

2023/01/29閱讀時間約 6 分鐘
在 RPA 的學習道路上,我們常會對 UiPath 等軟體的各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行教學,今天這篇文章要和大家介紹的是「Table Extraction」功能!
你知道「爬蟲」(web crawler)是什麼嗎?
不清楚的話,歡迎先參考我們之前所撰寫關於爬蟲的系列文章:
五分鐘帶你看懂電商產業背後的爬蟲機器人(上)
簡單來說,爬蟲便是設計一個程式機器人,使其按照一定的規則自動抓取網頁上的資訊,協助使用者快速查詢,並進行後續分析討論。爬蟲的應用相當多元且便利,而我們也可以透過 RPA 來進行爬蟲, UiPath 更有 Table Extraction 功能可讓我們快速抓取網頁資訊!
在開始閱讀正文之前,也別忘了先追蹤我們的 臉書粉絲專頁方格子帳號

Table Extraction 功能簡介

Table Extraction 是 UiPath 的內建功能,我們可透過此功能將想抓取的網頁資訊,一列一列自動抓取到所欲儲存之處,也可透過相關設定,讓 RPA 持續換頁抓取所需要的內容並調整數量。
不同於我們之前所介紹的其他功能,我們得在 UiPath 介面上方的 Design 欄位中的選項列表,才能找到 Table Extraction 功能,如下圖所示:
如果還想學習更多 UiPath 功能、實作案例並了解最新自動化趨勢,
歡迎加入「零基礎快速學習 RPA-利用 UiPath 建構自動化機器人」線上課程!課程優惠只到 2024 年 2 月 5 日,快點擊連結立即了解:https://mastertalks.tw/products/rpa-uipath?ref=RPARPA

功能參數說明

點選 Table Extraction,便可看到下圖畫面,操作上相當直覺。
首先點選「Add new column」,便會跳出紅色的選取框,來抓取我們所需要的網頁資訊,選取後便可看到 Table Extraction 跳出剛剛抓取的網頁字樣,下方也仍有 Add new column ,讓用戶得以持續抓取網頁的各種字樣。
只要指定一列,UiPath 便會自動抓取該網頁中相同位置的欄位名稱,不需要一一指定每欄的網頁資訊,可以說是相當方便!
接著,當我們需要抓取的網頁資訊不只一頁時,便可點擊下方的「Extract data from multiple pages」,此時就會出現「Next button」功能,讓用戶可以指定抓取下一頁的欄位資訊。
指定完後,我們便可按下「Save & close」,此時就會看到主畫面產生 Extract Table Data 的 Activity,並將我們所抓取的網頁資訊自動產生一個表格變數以便匯出。
此外,我們也可在 Property 中進行各項設定,例如可以指定「Number of items」,也就是告訴 UiPath 要爬取幾頁的網頁資訊;又或是可以設定「delay between pages」,來調整 UiPath 的翻頁時間,避免有時翻太快,來不及將網頁資訊爬下來的風險。

RPA 實作案例

我們接下來將進行 Table Extraction 的範例練習,讓大家能更理解此一功能。
假設我們今天想在人力銀行網站上搜尋專案經理相關職缺,希望找到排序前三頁的專案經理職缺、公司和所在地點,我們能如何使用 Table Extraction 功能呢?

Step1:打開欲抓取的網頁

首先,我們先開啟 104 人力銀行的網頁,並先在搜尋欄中輸入「專案經理」。

Step2:Table Extraction

接著,我們點擊 UiPath 的 Table Extraction 功能,抓取我們所需要的相關資訊後,便可看到我們在搜尋頁中抓到 3 個欄位和 40 列的職缺資料。

Step3:Next button

當我們需要抓取多頁資訊時,只要點選 Extract data from multiple pages,就能讓 UiPath 在抓完第一頁之後,跳轉到下一頁繼續抓取隔頁資訊。

Step4: 調整設定

儲存後,我們便可看到 UiPath 的 Sequence 畫面中,已經多出剛剛指定的網頁頁面,以及所抓取的特定網頁資訊。
因為要抓取不只一頁職缺資訊,因此有先將 Property 中的 delay between pages 設為 1 秒,並將 Number of items 指定為3,讓 UiPath 抓取 3 頁資訊。

Step5: Write Range Workbook

最後,我們便可將這些方才所抓取的資料進行建檔,這時我們使用 Write Range Workbook 功能,將剛剛 Table Extraction 功能的 ExtractDataTable 表格變數回寫至指定的 Excel 頁面和欄位。
執行後,我們便可看到 104 人力銀行網站搜尋頁中有關「專案經理」的職缺名稱、公司、地點都成功回寫到指定的 Excel 中囉!

結語與心得

RPAI 數位優化器認為,Table Extraction 功能的實用度為五顆星!
在執行業務過程中,我們時常需要針對不同網頁搜尋結果進行資訊擷取和整理,比起一行一行複製、貼上,或是請工程師特地寫一個爬蟲功能,如果透過 Table Exaction 功能來執行的話,會是更加有效率且快速的選項!
如果你想進一步瞭解網頁抓取相關功能,歡迎在底下留言告訴我們,RPAI 數位優化器未來會再撰文分享,透過理解這些功能,使工作更加順暢與自動化,讓我們一起 Work Smart!
這些功能雖然簡單,卻是我們創造自動化流程的基石,
讓我們一起由簡單開始,成就不簡單!
如果你/妳喜歡這篇文章,歡迎點點愛心或留言,讓我們相互交流和成長!
這次的分享到此告一段落,想了解更多 RPA + AI 與數位轉型的最新趨勢與觀點、RPA 軟體功能介紹及實務應用案例,也歡迎追蹤 RPAI 數位優化器的社群和我們交流互動,我們下次見!
🚀 Instagram:RPAI 數位優化器
🚀 臉書粉絲專頁:RPAI 數位優化器
🚀 YouTube 頻道:RPAI 數位優化器

延伸學習資源

為什麼會看到廣告
88會員
75內容數
我們是以「機器人流程自動化(RPA)」結合「人工智慧(AI)」為主題的中文學習社群,旨在分享 RPA + AI 的學習資源、應用實例和最新發展趨勢,讓工作者透過自動化工具的有效應用,創造數位優化與轉型契機,讓我們一起由簡單開始,成就不簡單!
留言0
查看全部
發表第一個留言支持創作者!