RPA 功能|一鍵爬蟲,抓取網頁資訊:UiPath Table Extraction!

閱讀時間約 6 分鐘
在 RPA 的學習道路上,我們常會對 UiPath 等軟體的各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行教學,今天這篇文章要和大家介紹的是「Table Extraction」功能!
你知道「爬蟲」(web crawler)是什麼嗎?
不清楚的話,歡迎先參考我們之前所撰寫關於爬蟲的系列文章:
五分鐘帶你看懂電商產業背後的爬蟲機器人(上)
簡單來說,爬蟲便是設計一個程式機器人,使其按照一定的規則自動抓取網頁上的資訊,協助使用者快速查詢,並進行後續分析討論。爬蟲的應用相當多元且便利,而我們也可以透過 RPA 來進行爬蟲, UiPath 更有 Table Extraction 功能可讓我們快速抓取網頁資訊!
在開始閱讀正文之前,也別忘了先追蹤我們的 臉書粉絲專頁方格子帳號

Table Extraction 功能簡介

Table Extraction 是 UiPath 的內建功能,我們可透過此功能將想抓取的網頁資訊,一列一列自動抓取到所欲儲存之處,也可透過相關設定,讓 RPA 持續換頁抓取所需要的內容並調整數量。
不同於我們之前所介紹的其他功能,我們得在 UiPath 介面上方的 Design 欄位中的選項列表,才能找到 Table Extraction 功能,如下圖所示:
如果還想學習更多 UiPath 功能、實作案例並了解最新自動化趨勢,
歡迎加入「零基礎快速學習 RPA-利用 UiPath 建構自動化機器人」線上課程!課程優惠只到 2024 年 2 月 5 日,快點擊連結立即了解:https://mastertalks.tw/products/rpa-uipath?ref=RPARPA

功能參數說明

點選 Table Extraction,便可看到下圖畫面,操作上相當直覺。
首先點選「Add new column」,便會跳出紅色的選取框,來抓取我們所需要的網頁資訊,選取後便可看到 Table Extraction 跳出剛剛抓取的網頁字樣,下方也仍有 Add new column ,讓用戶得以持續抓取網頁的各種字樣。
只要指定一列,UiPath 便會自動抓取該網頁中相同位置的欄位名稱,不需要一一指定每欄的網頁資訊,可以說是相當方便!
接著,當我們需要抓取的網頁資訊不只一頁時,便可點擊下方的「Extract data from multiple pages」,此時就會出現「Next button」功能,讓用戶可以指定抓取下一頁的欄位資訊。
指定完後,我們便可按下「Save & close」,此時就會看到主畫面產生 Extract Table Data 的 Activity,並將我們所抓取的網頁資訊自動產生一個表格變數以便匯出。
此外,我們也可在 Property 中進行各項設定,例如可以指定「Number of items」,也就是告訴 UiPath 要爬取幾頁的網頁資訊;又或是可以設定「delay between pages」,來調整 UiPath 的翻頁時間,避免有時翻太快,來不及將網頁資訊爬下來的風險。

RPA 實作案例

我們接下來將進行 Table Extraction 的範例練習,讓大家能更理解此一功能。
假設我們今天想在人力銀行網站上搜尋專案經理相關職缺,希望找到排序前三頁的專案經理職缺、公司和所在地點,我們能如何使用 Table Extraction 功能呢?

Step1:打開欲抓取的網頁

首先,我們先開啟 104 人力銀行的網頁,並先在搜尋欄中輸入「專案經理」。

Step2:Table Extraction

接著,我們點擊 UiPath 的 Table Extraction 功能,抓取我們所需要的相關資訊後,便可看到我們在搜尋頁中抓到 3 個欄位和 40 列的職缺資料。

Step3:Next button

當我們需要抓取多頁資訊時,只要點選 Extract data from multiple pages,就能讓 UiPath 在抓完第一頁之後,跳轉到下一頁繼續抓取隔頁資訊。

Step4: 調整設定

儲存後,我們便可看到 UiPath 的 Sequence 畫面中,已經多出剛剛指定的網頁頁面,以及所抓取的特定網頁資訊。
因為要抓取不只一頁職缺資訊,因此有先將 Property 中的 delay between pages 設為 1 秒,並將 Number of items 指定為3,讓 UiPath 抓取 3 頁資訊。

Step5: Write Range Workbook

最後,我們便可將這些方才所抓取的資料進行建檔,這時我們使用 Write Range Workbook 功能,將剛剛 Table Extraction 功能的 ExtractDataTable 表格變數回寫至指定的 Excel 頁面和欄位。
執行後,我們便可看到 104 人力銀行網站搜尋頁中有關「專案經理」的職缺名稱、公司、地點都成功回寫到指定的 Excel 中囉!

結語與心得

RPAI 數位優化器認為,Table Extraction 功能的實用度為五顆星!
在執行業務過程中,我們時常需要針對不同網頁搜尋結果進行資訊擷取和整理,比起一行一行複製、貼上,或是請工程師特地寫一個爬蟲功能,如果透過 Table Exaction 功能來執行的話,會是更加有效率且快速的選項!
如果你想進一步瞭解網頁抓取相關功能,歡迎在底下留言告訴我們,RPAI 數位優化器未來會再撰文分享,透過理解這些功能,使工作更加順暢與自動化,讓我們一起 Work Smart!
這些功能雖然簡單,卻是我們創造自動化流程的基石,
讓我們一起由簡單開始,成就不簡單!
如果你/妳喜歡這篇文章,歡迎點點愛心或留言,讓我們相互交流和成長!
這次的分享到此告一段落,想了解更多 RPA + AI 與數位轉型的最新趨勢與觀點、RPA 軟體功能介紹及實務應用案例,也歡迎追蹤 RPAI 數位優化器的社群和我們交流互動,我們下次見!
🚀 Instagram:RPAI 數位優化器
🚀 臉書粉絲專頁:RPAI 數位優化器
🚀 YouTube 頻道:RPAI 數位優化器

延伸學習資源

為什麼會看到廣告
avatar-img
138會員
117內容數
我們是以「機器人流程自動化(RPA)」結合「人工智慧(AI)」為主題的中文學習社群,旨在分享 RPA + AI 的學習資源、應用實例和最新發展趨勢,讓工作者透過自動化工具的有效應用,創造數位優化與轉型契機,讓我們一起由簡單開始,成就不簡單!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
RPAI 數位優化器 的其他內容
在職場上,日期與時間是最基本而重要的資訊,而當我們在進行資料處理或是 RPA 流程開發時,有時需要將既有日期或時間轉換為不同格式,以利後續使用,因此 RPAI 數位優化器今天要分享 UiPath 這套軟體另一個方便、實用,且更符合低程式碼精神的 Modify Date 功能!
Excel有個極其實用的工具VBA,讓我們透過語法撰寫對Excel下指令,雖然UiPath也有內建Excel相關功能,不過相較之下VBA可處理更多精細且完整的活動,因此我們在用UiPath開發流程時,可使用Invoke VBA功能呼叫Excel檔案中已撰寫好的VBA語法!
UiPath除了能在本機端執行工作,也可透過特定功能與網頁互動,例如將網路資訊擷取下來(爬蟲)或自動寄出信件等。我們有介紹過如何在UiPath使用JavaScript增加與網頁互動的彈性,這次要分享Create HTML Content功能,並透過實作案例說明製作客製化信件的流程!
今天 RPAI 數位優化器要和大家介紹的就是在 UiPath 進行 Excel 操作會使用的:Add Data Row 功能,可以告訴 UiPath 我們希望在 Excel 中的 Datatable 新增一列或一行資料,當我們需要將值加入到 Excel 當中時,就可以考慮使用這個功能。
RPAI 數位優化器要和大家介紹的是在 UiPath 進行 Excel 相關活動的時候經常使用到的:Sort Data Table 功能!顧名思義就是可以將 Excel 中的欄位內容進行排序,主要可根據欄位名稱或是欄位索引位置進行升冪排序(Ascending)和降冪排序(Descending)。
先前 RPAI 數位優化器有分享過如何利用 UiPath Orchestrator,實現於特定時間啟動指定機器人流程的做法。不過我們怎麼可以只學一種工具呢?這次要介紹 Windows 內建的工作排程器(Task Scheduler),不需仰賴 Orchestrator 也可以將機器人流程進行排程!
在職場上,日期與時間是最基本而重要的資訊,而當我們在進行資料處理或是 RPA 流程開發時,有時需要將既有日期或時間轉換為不同格式,以利後續使用,因此 RPAI 數位優化器今天要分享 UiPath 這套軟體另一個方便、實用,且更符合低程式碼精神的 Modify Date 功能!
Excel有個極其實用的工具VBA,讓我們透過語法撰寫對Excel下指令,雖然UiPath也有內建Excel相關功能,不過相較之下VBA可處理更多精細且完整的活動,因此我們在用UiPath開發流程時,可使用Invoke VBA功能呼叫Excel檔案中已撰寫好的VBA語法!
UiPath除了能在本機端執行工作,也可透過特定功能與網頁互動,例如將網路資訊擷取下來(爬蟲)或自動寄出信件等。我們有介紹過如何在UiPath使用JavaScript增加與網頁互動的彈性,這次要分享Create HTML Content功能,並透過實作案例說明製作客製化信件的流程!
今天 RPAI 數位優化器要和大家介紹的就是在 UiPath 進行 Excel 操作會使用的:Add Data Row 功能,可以告訴 UiPath 我們希望在 Excel 中的 Datatable 新增一列或一行資料,當我們需要將值加入到 Excel 當中時,就可以考慮使用這個功能。
RPAI 數位優化器要和大家介紹的是在 UiPath 進行 Excel 相關活動的時候經常使用到的:Sort Data Table 功能!顧名思義就是可以將 Excel 中的欄位內容進行排序,主要可根據欄位名稱或是欄位索引位置進行升冪排序(Ascending)和降冪排序(Descending)。
先前 RPAI 數位優化器有分享過如何利用 UiPath Orchestrator,實現於特定時間啟動指定機器人流程的做法。不過我們怎麼可以只學一種工具呢?這次要介紹 Windows 內建的工作排程器(Task Scheduler),不需仰賴 Orchestrator 也可以將機器人流程進行排程!
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本篇文章介紹網路爬蟲的基本概念和操作流程,適合初學者瞭解爬蟲的功能與合法使用方式。文章說明爬蟲如何自動蒐集資料及 API 的重要角色,同時提醒用戶注意指南與網站規範。作者也自己嘗試網路爬蟲。也期許自己可以在未來學習到網頁時,能成功操作 LinkedIn 的爬蟲
Thumbnail
隨著企業競爭日益激烈,公司開始透過技術改進來提高效率和自動化工作流程。企業軟件,如ERP系統和機器人流程自動化(RPA)系統的引入,不是為了裁減員工,而是為了提升效率和實現自動化流程。本文探討了ERP和RPA自動化工作流程的多個好處,並介紹了3個強大的企業軟件公司。
Thumbnail
Tengr.ai 圖生圖 咒語:Pick up Robot
Thumbnail
UiPath是一家提供流程自動化解決方案的公司,從產業、應用的角度深入探討公司的發展歷程。先從流程自動化的起源談起,接著介紹了UiPath的創始人和公司的發展過程,以及RPA對企業帶來的影響。最後探討了流程自動化的下一步:全面性與智能化對企業的衝擊,並提出了科技公司的見解和對話的呼籲。
Thumbnail
UiPath 是一家領先的機器人流程自動化(RPA)公司,總部位於紐約。本篇文章介紹了 UiPath 最新推出的 Automation Hub 和與 Microsoft 的合作等重要新聞,以及其在市場上的表現和競爭對手情況。文章最後還分享了未來可能的行動和發展趨勢。歡迎留言交流和討論!
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
網路爬蟲的由來 網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。 網路爬蟲的原理
Thumbnail
你知道嗎?網路爬蟲其實是整個搜尋世界的起點。爬蟲將所有上線的網頁快速瀏覽後並整理重點做索引,這樣搜尋引擎才能快速檢索相關內容。今天本男爵就來跟大家好好聊一下,在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。
Thumbnail
對於剛接觸Python程式的使用者來說,要一口氣學會爬蟲可能相對困難,但若想即時且輕鬆獲得台股相關數據,你可以利用證交所所提供的API進行數據蒐集。只需要簡單幾行程式碼,就能輕鬆抓到台股上千支股票的每日資訊,是不是棒呆了!!
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本篇文章介紹網路爬蟲的基本概念和操作流程,適合初學者瞭解爬蟲的功能與合法使用方式。文章說明爬蟲如何自動蒐集資料及 API 的重要角色,同時提醒用戶注意指南與網站規範。作者也自己嘗試網路爬蟲。也期許自己可以在未來學習到網頁時,能成功操作 LinkedIn 的爬蟲
Thumbnail
隨著企業競爭日益激烈,公司開始透過技術改進來提高效率和自動化工作流程。企業軟件,如ERP系統和機器人流程自動化(RPA)系統的引入,不是為了裁減員工,而是為了提升效率和實現自動化流程。本文探討了ERP和RPA自動化工作流程的多個好處,並介紹了3個強大的企業軟件公司。
Thumbnail
Tengr.ai 圖生圖 咒語:Pick up Robot
Thumbnail
UiPath是一家提供流程自動化解決方案的公司,從產業、應用的角度深入探討公司的發展歷程。先從流程自動化的起源談起,接著介紹了UiPath的創始人和公司的發展過程,以及RPA對企業帶來的影響。最後探討了流程自動化的下一步:全面性與智能化對企業的衝擊,並提出了科技公司的見解和對話的呼籲。
Thumbnail
UiPath 是一家領先的機器人流程自動化(RPA)公司,總部位於紐約。本篇文章介紹了 UiPath 最新推出的 Automation Hub 和與 Microsoft 的合作等重要新聞,以及其在市場上的表現和競爭對手情況。文章最後還分享了未來可能的行動和發展趨勢。歡迎留言交流和討論!
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
網路爬蟲的由來 網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。 網路爬蟲的原理
Thumbnail
你知道嗎?網路爬蟲其實是整個搜尋世界的起點。爬蟲將所有上線的網頁快速瀏覽後並整理重點做索引,這樣搜尋引擎才能快速檢索相關內容。今天本男爵就來跟大家好好聊一下,在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。
Thumbnail
對於剛接觸Python程式的使用者來說,要一口氣學會爬蟲可能相對困難,但若想即時且輕鬆獲得台股相關數據,你可以利用證交所所提供的API進行數據蒐集。只需要簡單幾行程式碼,就能輕鬆抓到台股上千支股票的每日資訊,是不是棒呆了!!
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程