RPA 實戰應用|五分鐘帶你看懂電商產業背後的爬蟲機器(下)

閱讀時間約 7 分鐘
RPA 實戰應用(上)RPA 實戰應用(中)這兩篇文章中,RPAI 數位優化器和大家分享爬蟲概念以及如何應用在電商產業;然而要如何透過爬蟲將需要的網頁資訊進行抓取呢
RPAI 數位優化器將在這篇文章中,使用 RPA 軟體 UiPath 提供爬蟲實作案例,讓沒有程式背景的人了解如何不用撰寫語法快速爬蟲。如果你還沒看過前兩篇文章的讀者們,建議你可以先回去看完,才會更了解電商產業與爬蟲機器人的歷史脈絡以及我們的觀點喔!
在開始閱讀正文之前,也別忘了先追蹤我們的 臉書粉絲專頁方格子帳號

前言

RPA(Robotic Process Automation)是近年企業用以優化既有流程的熱門解決方案,因為其圖像化的使用介面讓不具程式背景的工作者也能快速上手,可說是 AI 時代和數位轉型的效率改革新利器,而我們這次要使用的 RPA 軟體,正是目前全球市佔率最高、最多人使用的 UiPath!
今天所分享的案例中,我們假定是一群希望了解美國房屋市場的消費者,因此將從美國房屋網站 Zillow 進行房屋資訊的爬蟲和下載,以了解特定區域的房屋資訊,像是房價、地址、房間數等;而在使用 RPA 進行數據抓取時,我們主要會使用到的功能包含:Data Scraping、Output Data Table、Write Range 等,以下也將分別進行介紹。
如果想學習更多 UiPath 功能、實作案例並了解最新自動化趨勢,
歡迎加入「零基礎快速學習 RPA-利用 UiPath 建構自動化機器人」線上課程!課程優惠只到 2024 年 2 月 5 日,快點擊連結立即了解:https://mastertalks.tw/products/rpa-uipath?ref=RPARPA

要如何透過 RPA 抓資料?

我們首先要先確定自己要抓取的資料目標,在這次的示範中,我們主要希望抓取的資訊是房屋概況,像是幾間房、價格、坪數等,如圖片所框選文字:

Data Scraping 數據抓取

首先,只要在 UiPath 中點擊上方列的「數據抓取」功能,就會直接連結到網站畫面,並幫我們擷取網頁所需的資訊,而不需撰寫任何代碼,用戶只要點選欲下載的資訊,如上述所提的坪數、房間數以及價格等資訊,UiPath 就會如下圖自動將點擊的資訊進行反白註記。
使用UiPath相當便利的一件事,就是它會判斷我們想要下載的資訊形式,因此上方的資料辨識動作,我們僅需要進行兩次,之後 UiPath 就會將相似資料類型進行抓取。
我們也可以將資料標籤進行命名,讓我們可以更清楚地了解所抓取到的資料內容,並利於之後輸出辨別,而基本上透過這個流程我們就可以輕易地進行網站爬蟲,不需輸入任何程式語法。

Extract Data 之 Properties 介紹

在使用「數據抓取」功能時,也可以在 UiPath 的 Properties 中進行更完整的操作,如下圖可以在 MaxNumberOfResults 中指定想下載的資料數目,爬到此數值的資料量即結束。
此外,下圖的 NextLinkSelector 也是相當重要的功能,當我們使用「數據抓取」並和 UiPath 溝通說要下載的資料形式後,也需去點選網站中下一頁的 icon,這樣才能讓 UiPath 抓取後續幾頁,將整個網站的類似資訊都蒐集,而點選網站下一頁的操作顯示,就會呈現在 NextLinkSelector 中,因此若該欄位沒東西的話,就代表此爬蟲將只會爬一頁網頁內容喔。

資料抓到了,下一步呢?

通常在成功取得資料後,可以將其匯到 Excel 中,以便後續的整理和分析,因此接著將分享該如何透過 UiPath 來實現。在我們如上所述,成功抓取到所需要的資訊後,便需要在上圖中 Properties 的 Output 創建新的變數(在此範例中將該變數稱為 ExtractDataTable),後續才可以將資料進行輸出。

Output Data Table

緊接著如下圖,當設定好上面提及的輸出變數(ExtractDataTable)後,我們就可以使用 OutputDataTable(輸出數據表)這個功能,並在 Input 欄位填寫我們剛剛設定的 ExtractDataTable 變數,即可將抓取資訊匯出。
而因為此功能的輸出格式是 "text" 記事本形式(可看 Output 欄位說明),因此在輸出時,會將所抓到的資料灌到記事本中,但因為我們最終是希望以 Excel 格式進行梳理,因此還需要透過 "Write Range" 功能來實現。

Write Range

因此最後,我們可以用 Write Range 來將剛剛的記事本資料,進一步匯整到 Excel 中,在這部分的操作就相當直覺,只要按照欄位資訊填寫 Input 欄位、Excel 表名稱等,即可完成。
成功執行 RPA 機器人後,便可以得到如下圖的結果,成功看到我們希望抓取的資訊,像是價格、房間數、衛浴數、坪數等,都被整理到 Excel 中,等待進行下一步的清洗和分析,如此我們就完成初步的 RPA 網站爬蟲了!

總結與觀點

這篇文章主要和大家分享怎麼透過 RPA 軟體 UiPath 進行爬蟲,主要是以美國房屋平台做為案例和大家介紹。
而在這個實例過程中,可發覺使用 RPA 進行爬蟲確實是不需撰寫任何語法,透過內部建立好的模組即可達到抓取資料的目的,因此更加友善、彈性和容易實行,但仍有兩點是在這個流程中,可以進一步思考和改進的地方:
  • 網站限制
    之所以採取美國房屋平台作為案例,主要是因其網站內容較固定、一致,可讓 RPA 較易進行判斷和抓取資訊;倘若今天網站內容每頁格式都不同,爬蟲難度便會大幅提高,此時使用 RPA 操作可能就會更加複雜。
  • 資料清理
    在這個案例中最後的結果,可以看到於 Excel 中所彙整的資料仍相當雜亂,像有一些空格、不必要符號等,而這其實並非 RPA 的問題,事實上也是可透過 RPA 其他內建功能,進行資料清洗再匯到 Excel 中,待日後有機會再進行分享!
這三篇文章中,RPAI 數位優化器希望帶大家了解爬蟲基本概念電商產業怎麼運用爬蟲增加競爭力,以及該如何快速創建自己的爬蟲機器人,希望帶給大家更多元的想像和啟發,了解到爬蟲不是工程師專屬的武器,而是你我皆可運用的一項實用工具,讓 RPA 成為你導入爬蟲機器人的第一步!
如果你/妳喜歡這篇文章,歡迎點點愛心或留言,讓我們相互交流和成長!
這次的分享到此告一段落,想了解更多 RPA + AI 與數位轉型的最新趨勢與觀點、RPA 軟體功能介紹及實務應用案例,也歡迎追蹤 RPAI 數位優化器的社群和我們交流互動,我們下次見!
🚀 Instagram:RPAI 數位優化器
🚀 臉書粉絲專頁:RPAI 數位優化器
🚀 YouTube 頻道:RPAI 數位優化器
為什麼會看到廣告
111會員
99Content count
我們是以「機器人流程自動化(RPA)」結合「人工智慧(AI)」為主題的中文學習社群,旨在分享 RPA + AI 的學習資源、應用實例和最新發展趨勢,讓工作者透過自動化工具的有效應用,創造數位優化與轉型契機,讓我們一起由簡單開始,成就不簡單!
留言0
查看全部
發表第一個留言支持創作者!
RPAI 數位優化器 的其他內容
前一篇文章初步介紹爬蟲機器人的概念和應用,以及電商業者都必須掌握爬蟲機器人才能從中取得競爭優勢,但到底是為什麼呢?RPAI 數位優化器在這篇文章將會分享從行銷 4P 概念來看,對電商最重要的競爭因素;一起回顧 Amazon 與 Walmart 的爬蟲競賽;做爬蟲機器人最容易上手的方法正是——RPA!
RPAI 數位優化器將在這篇文章中介紹爬蟲的入門概念、應用案例以及對電商產業的必要性,趕快繼續看下去吧!
隨著後疫情時代來臨,線上課程越來越多元化,輔助學習工具也日益進步,今天要和各位分享Udemy 平台上超過千人評分、4.6顆星的線上課程,使用UiPath軟體作為教學主軸,透過不同實際應用場景說明,讓學習者更加熟悉 UiPath的使用介面及隱藏版功能,對於如何運用並製作機器人有更全面性的了解。
前一篇文章初步介紹爬蟲機器人的概念和應用,以及電商業者都必須掌握爬蟲機器人才能從中取得競爭優勢,但到底是為什麼呢?RPAI 數位優化器在這篇文章將會分享從行銷 4P 概念來看,對電商最重要的競爭因素;一起回顧 Amazon 與 Walmart 的爬蟲競賽;做爬蟲機器人最容易上手的方法正是——RPA!
RPAI 數位優化器將在這篇文章中介紹爬蟲的入門概念、應用案例以及對電商產業的必要性,趕快繼續看下去吧!
隨著後疫情時代來臨,線上課程越來越多元化,輔助學習工具也日益進步,今天要和各位分享Udemy 平台上超過千人評分、4.6顆星的線上課程,使用UiPath軟體作為教學主軸,透過不同實際應用場景說明,讓學習者更加熟悉 UiPath的使用介面及隱藏版功能,對於如何運用並製作機器人有更全面性的了解。
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
股市回檔轉折原理超級簡單易懂,利用趨勢成立不容易改變、多頭股價容易再創高的原理,配合回檔時抓進場點,帳面可以在相對短時間就呈現波段獲利。
Thumbnail
本文提供了對美元指數未來走勢的預測,並分享了對非美貨幣操作的策略和觀察。文章中詳細分析了美元指數的日線和4H走勢,並提出了對英鎊美元的操作策略。同時,還分享了如何從大、中、小格局去分析商品走勢,培養看盤和解讀行情的能力,希望能夠幫助投資者更好地理解市場走勢和獲得信心。
Thumbnail
個人認為兩者間的關係其實是種光譜,自動化服務會加入AI,降低設計流程門檻、提高辨識功能;AI 服務會加入自動化,更落地的提供實質幫助,兩者逐步靠攏,公司再根據自身需求、情境找到相對應、最適合的利基工具。
Thumbnail
RPA自動化流程是現今企業極為重視的一項技術。透過自動化流程,我們能夠將那些重複且繁瑣的操作,使其自動進行。 本單元,Meiko想來跟同學一同探索如何透過自動化流程,自動寄送員工生日賀卡,讓RPA來輔助企業,簡化流程,釋放潛力 — 利用RPA為企業效率加分
Thumbnail
發現RPA技術的無限潛力!了解如何透過Robotic Process Automation(RPA)實現自動化,克服企業勞動力短缺的挑戰。我們分享RPA的優勢、限制以及選擇最適合您企業的軟體的關鍵評估指標。結合AI技術,為您的業務帶來效率和質量的提升。不要錯過這個關於RPA未來發展趨勢的深入指南!
Thumbnail
我們也推出了一項專案活動<RPA數位傳情|在聖誕節寄出一封時空信​>,希望透過 RPA來做一個類時空信的活動,因此本篇文,也希望和大家聊聊: 1. 為何要做這樣的專案活動 2. 為何學習 RPA很重要 3. 如何設計自己的 RPA機器人
Thumbnail
RPA 全名為 Robotic Process Automation,意即「機器人流程自動化」,是一種軟體服務, 可以將其想像成有位數位助手,在一旁紀錄我們如何進行電腦操作,並且加以模仿、學習,在建立其流程後,便可讓這個軟體執行我們剛剛示範的流程任務,進而有效節省我們人為處理的時間和心力。
糟糕的談判者會花一大筆錢。好的談判者會省下一大筆錢。卓越的談判者則可賺一大筆錢。 ●銷術數中的「ABC」原意是「一直在你身旁」(Always be closing),現在已經改成「一直都關心你」(Always be caring)。先關心,再靠近。 ●成為卓越談判者必經四階段: 三、雙輸
Thumbnail
機器人流程自動化 RPA(Robotic Process Automation) 用最簡單的話來說,就是用電腦AI來取代企業工作流程中手動、低效、低產值的重複性工作,解放人類生產力和時間到更有價值的工作上。UiPath這家羅馬尼亞公司則是RPA這個領域的領頭羊,要在NYSE上市代號(PATH)
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
股市回檔轉折原理超級簡單易懂,利用趨勢成立不容易改變、多頭股價容易再創高的原理,配合回檔時抓進場點,帳面可以在相對短時間就呈現波段獲利。
Thumbnail
本文提供了對美元指數未來走勢的預測,並分享了對非美貨幣操作的策略和觀察。文章中詳細分析了美元指數的日線和4H走勢,並提出了對英鎊美元的操作策略。同時,還分享了如何從大、中、小格局去分析商品走勢,培養看盤和解讀行情的能力,希望能夠幫助投資者更好地理解市場走勢和獲得信心。
Thumbnail
個人認為兩者間的關係其實是種光譜,自動化服務會加入AI,降低設計流程門檻、提高辨識功能;AI 服務會加入自動化,更落地的提供實質幫助,兩者逐步靠攏,公司再根據自身需求、情境找到相對應、最適合的利基工具。
Thumbnail
RPA自動化流程是現今企業極為重視的一項技術。透過自動化流程,我們能夠將那些重複且繁瑣的操作,使其自動進行。 本單元,Meiko想來跟同學一同探索如何透過自動化流程,自動寄送員工生日賀卡,讓RPA來輔助企業,簡化流程,釋放潛力 — 利用RPA為企業效率加分
Thumbnail
發現RPA技術的無限潛力!了解如何透過Robotic Process Automation(RPA)實現自動化,克服企業勞動力短缺的挑戰。我們分享RPA的優勢、限制以及選擇最適合您企業的軟體的關鍵評估指標。結合AI技術,為您的業務帶來效率和質量的提升。不要錯過這個關於RPA未來發展趨勢的深入指南!
Thumbnail
我們也推出了一項專案活動<RPA數位傳情|在聖誕節寄出一封時空信​>,希望透過 RPA來做一個類時空信的活動,因此本篇文,也希望和大家聊聊: 1. 為何要做這樣的專案活動 2. 為何學習 RPA很重要 3. 如何設計自己的 RPA機器人
Thumbnail
RPA 全名為 Robotic Process Automation,意即「機器人流程自動化」,是一種軟體服務, 可以將其想像成有位數位助手,在一旁紀錄我們如何進行電腦操作,並且加以模仿、學習,在建立其流程後,便可讓這個軟體執行我們剛剛示範的流程任務,進而有效節省我們人為處理的時間和心力。
糟糕的談判者會花一大筆錢。好的談判者會省下一大筆錢。卓越的談判者則可賺一大筆錢。 ●銷術數中的「ABC」原意是「一直在你身旁」(Always be closing),現在已經改成「一直都關心你」(Always be caring)。先關心,再靠近。 ●成為卓越談判者必經四階段: 三、雙輸
Thumbnail
機器人流程自動化 RPA(Robotic Process Automation) 用最簡單的話來說,就是用電腦AI來取代企業工作流程中手動、低效、低產值的重複性工作,解放人類生產力和時間到更有價值的工作上。UiPath這家羅馬尼亞公司則是RPA這個領域的領頭羊,要在NYSE上市代號(PATH)