2023-01-29|閱讀時間 ‧ 約 7 分鐘

RPA 功能|一鍵爬蟲,抓取網頁資訊:UiPath Table Extraction!

在 RPA 的學習道路上,我們常會對 UiPath 等軟體的各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行教學,今天這篇文章要和大家介紹的是「Table Extraction」功能!
你知道「爬蟲」(web crawler)是什麼嗎? 不清楚的話,歡迎先參考我們之前所撰寫關於爬蟲的系列文章: 五分鐘帶你看懂電商產業背後的爬蟲機器人(上)
簡單來說,爬蟲便是設計一個程式機器人,使其按照一定的規則自動抓取網頁上的資訊,協助使用者快速查詢,並進行後續分析討論。爬蟲的應用相當多元且便利,而我們也可以透過 RPA 來進行爬蟲, UiPath 更有 Table Extraction 功能可讓我們快速抓取網頁資訊!
在開始閱讀正文之前,也別忘了先追蹤我們的 臉書粉絲專頁方格子帳號

Table Extraction 功能簡介

Table Extraction 是 UiPath 的內建功能,我們可透過此功能將想抓取的網頁資訊,一列一列自動抓取到所欲儲存之處,也可透過相關設定,讓 RPA 持續換頁抓取所需要的內容並調整數量。
不同於我們之前所介紹的其他功能,我們得在 UiPath 介面上方的 Design 欄位中的選項列表,才能找到 Table Extraction 功能,如下圖所示:
如果還想學習更多 UiPath 功能、實作案例並了解最新自動化趨勢, 歡迎加入「零基礎快速學習 RPA-利用 UiPath 建構自動化機器人」線上課程!課程優惠只到 2024 年 2 月 5 日,快點擊連結立即了解:https://mastertalks.tw/products/rpa-uipath?ref=RPARPA

功能參數說明

點選 Table Extraction,便可看到下圖畫面,操作上相當直覺。
首先點選「Add new column」,便會跳出紅色的選取框,來抓取我們所需要的網頁資訊,選取後便可看到 Table Extraction 跳出剛剛抓取的網頁字樣,下方也仍有 Add new column ,讓用戶得以持續抓取網頁的各種字樣。
只要指定一列,UiPath 便會自動抓取該網頁中相同位置的欄位名稱,不需要一一指定每欄的網頁資訊,可以說是相當方便!
接著,當我們需要抓取的網頁資訊不只一頁時,便可點擊下方的「Extract data from multiple pages」,此時就會出現「Next button」功能,讓用戶可以指定抓取下一頁的欄位資訊。
指定完後,我們便可按下「Save & close」,此時就會看到主畫面產生 Extract Table Data 的 Activity,並將我們所抓取的網頁資訊自動產生一個表格變數以便匯出。
此外,我們也可在 Property 中進行各項設定,例如可以指定「Number of items」,也就是告訴 UiPath 要爬取幾頁的網頁資訊;又或是可以設定「delay between pages」,來調整 UiPath 的翻頁時間,避免有時翻太快,來不及將網頁資訊爬下來的風險。

RPA 實作案例

我們接下來將進行 Table Extraction 的範例練習,讓大家能更理解此一功能。
假設我們今天想在人力銀行網站上搜尋專案經理相關職缺,希望找到排序前三頁的專案經理職缺、公司和所在地點,我們能如何使用 Table Extraction 功能呢?

Step1:打開欲抓取的網頁
首先,我們先開啟 104 人力銀行的網頁,並先在搜尋欄中輸入「專案經理」。

Step2:Table Extraction
接著,我們點擊 UiPath 的 Table Extraction 功能,抓取我們所需要的相關資訊後,便可看到我們在搜尋頁中抓到 3 個欄位和 40 列的職缺資料。

Step3:Next button
當我們需要抓取多頁資訊時,只要點選 Extract data from multiple pages,就能讓 UiPath 在抓完第一頁之後,跳轉到下一頁繼續抓取隔頁資訊。

Step4: 調整設定
儲存後,我們便可看到 UiPath 的 Sequence 畫面中,已經多出剛剛指定的網頁頁面,以及所抓取的特定網頁資訊。
因為要抓取不只一頁職缺資訊,因此有先將 Property 中的 delay between pages 設為 1 秒,並將 Number of items 指定為3,讓 UiPath 抓取 3 頁資訊。

Step5: Write Range Workbook
最後,我們便可將這些方才所抓取的資料進行建檔,這時我們使用 Write Range Workbook 功能,將剛剛 Table Extraction 功能的 ExtractDataTable 表格變數回寫至指定的 Excel 頁面和欄位。
執行後,我們便可看到 104 人力銀行網站搜尋頁中有關「專案經理」的職缺名稱、公司、地點都成功回寫到指定的 Excel 中囉!

結語與心得

RPAI 數位優化器認為,Table Extraction 功能的實用度為五顆星!
在執行業務過程中,我們時常需要針對不同網頁搜尋結果進行資訊擷取和整理,比起一行一行複製、貼上,或是請工程師特地寫一個爬蟲功能,如果透過 Table Exaction 功能來執行的話,會是更加有效率且快速的選項!
如果你想進一步瞭解網頁抓取相關功能,歡迎在底下留言告訴我們,RPAI 數位優化器未來會再撰文分享,透過理解這些功能,使工作更加順暢與自動化,讓我們一起 Work Smart!
這些功能雖然簡單,卻是我們創造自動化流程的基石, 讓我們一起由簡單開始,成就不簡單!
如果你/妳喜歡這篇文章,歡迎點點愛心或留言,讓我們相互交流和成長! 這次的分享到此告一段落,想了解更多 RPA + AI 與數位轉型的最新趨勢與觀點、RPA 軟體功能介紹及實務應用案例,也歡迎追蹤 RPAI 數位優化器的社群和我們交流互動,我們下次見! 🚀 Instagram:RPAI 數位優化器 🚀 臉書粉絲專頁:RPAI 數位優化器 🚀 YouTube 頻道:RPAI 數位優化器

延伸學習資源

分享至
成為作者繼續創作的動力吧!
大家好,我們是 RPAI 數位優化器,我們是以 RPA + AI 為主題的中文學習社群,我們發現在 UiPath 的學習道路上,許多人常會對這些各項功能、參數感到混亂,因此這個系列將會對這些功能參數進行解說,UiPath 新手快來追蹤這個專題吧!
從 Google News 追蹤更多 vocus 的最新精選內容從 Google News 追蹤更多 vocus 的最新精選內容

發表回應

成為會員 後即可發表留言