UiPath 實作 | 七大步驟用 RPA 實現文件理解!

閱讀時間約 7 分鐘
當你因為繁重的工作量忙得分身乏術,卻仍有不少繁瑣而重複性的文書工作需執行時,是否也曾有過以下念頭:
如果有機器人可以來幫我完成的話,那該有多好?
文件理解」可以將我們從消磨熱情的重複性行為解放出來,將有限的專注力投入於創意發想、策略思考等面向,以下將介紹「文件理解」的定義,如何透過 UiPath 這套 RPA 軟體加以實現,並以 UiPath 2022.4.3 ver. 作為說明範例。
在開始閱讀正文之前,也別忘了先追蹤我們的 臉書粉絲專頁方格子帳號

文件理解(Document Understanding)是什麼?

「文件理解」可以透過 RPA 工具,讓機器人模擬人類從一份數位文件的內容擷取、處理並詮釋「資料」(Raw Data),使其成為使用者所需的「資訊」(Information)。
而文件理解能透過 UiPath 等 RPA 工具實現的要件在於,我們需要將文件進行「數位化」,因此文件可以來自手寫、掃描影像或是 PDF 檔等。而相較於 anchor base 專門處理結構化資料(Structured),文件理解的強項則在於可處理半結構化資料(Semi-structured),例如發票、收據等有固定格式的文件。
一些補充
1. 結構性(Structured):具備 key 和 value 的組合,例如 key 為「姓名」、 value 為「王O明」,這樣的資料結構常見於有固定格式的履歷當中。
2. 非結構性(Unstructured):內容沒有統一格式,也沒有互相對應的 key 和 value,例如 e-mail 或是文章。
3. 半結構性(Semi-structured):同時具結構性和非結構性的特徵,例如發票或收據。
4. Anchor base 是利用表格「固定欄位對應到一個固定內容」的特性,並使用定位點的方式,讓機器人得以正確辨識目標以利後續流程進行,詳細說明可以參考先前文章「透過 UiPath 實現 Excel 自動化」,裡面有實際參考範例。

以 RPA 實現文件理解的七大步驟

圖一:製作文件理解機器人的七大步驟
如果還想學習更多 UiPath 功能、實作案例並了解最新自動化趨勢,
歡迎加入「零基礎快速學習 RPA-利用 UiPath 建構自動化機器人」線上課程!課程優惠只到 2024 年 2 月 5 日,快點擊連結立即了解:https://mastertalks.tw/products/rpa-uipath?ref=RPARPA
Step1:建立分類系統(Create and load taxonomy)
Taxonomy 是生物領域中專門用於分類樹上的英文詞彙,從這個詞彙進行概念延伸,此一步驟是要先定義(Define)文件理解需要分類成幾個單位,每個單位有哪些文件,進而判斷需要判讀的文件應該啟動哪個流程。
Step2:文件數位化(Digitization)【須批次處理】
此一步驟就是將文件轉化為 UiPath 可讀取的(Readable)的數位檔案,如果要使用文件辨識技術(OCR)進行轉化,則需要先安裝 Omnipackage(也就是OCR engines),如果要讀取的文件就是數位資料的話,則可以略過這個步驟
Step3:文件分類(Classification)【須批次處理】
在這個步驟,我們需要將已經數位化的資料或檔案分類至 Step1 建立的 Taxonomy 類別中,可以使用 UiPath 的「classify document scope」功能。
Step4:擷取資訊(Extraction)【須批次處理】
顧名思義,我們要在這個階段擷取出數位檔案中的關鍵字,來協助電腦辨別這份文件是屬於哪個類別,當關鍵字設定得越精確,分類效果越佳。而 UiPath 提供三種 Extraction 的概念可以設定(config),包括 Form based、ML based、Regex based,後續的文章會再詳細說明如何設定。
Step5:驗證資訊(Validation)
此一步驟是為了確認文件分類的正確與否,當我們發現分類效果並沒有達到可以接受的程度時,就需要回到上一個步驟,重新評估是否有更好的關鍵字設定。一旦確認先前的設定足以應付文件分類後,Step5 將不會出現在正式執行機器人的流程當中,而只屬於流程設計中的其中一個過程而已。
Step6:輸出資訊(Export)
文件理解的主要用途,在於協助使用者擷取出大量電子的檔案中的所需資訊,因此這一個步驟將會視使用者所處的個別情況,並搭配不同功能設計以達成流程優化的需求。
Step7:訓練(Train)
Step4 中提到擷取文件資訊的方式有三種選擇,我們可以在流程設計中同時選擇使用這三種方式,例如人力資源部門的文件使用 ML based 的效果最佳,那麽只要在第三步驟被判斷為人力資源部門的文件,後續步驟中就可使用 ML based,同理也可運用於其他部門的文件當中。而為了評估個別文件最適合哪一種資訊擷取方式,我們需要使用現有檔案訓練 RPA 機器人,以提升機器人判斷準確率。
補充:
近年來機器學習應用蔚為風潮,應用範疇更是包羅萬象,其中在進行機器學習演算法的設計時,主要會分成以下三種類型:
1. Train:是用來設計並訓練機器學習模型
2. Validation:是用已知答案的資料去驗證此一模型的效果好壞
3. Testing:則會使用(模型未看過的)全新資料提供模型進行辨識與分類,這些資料又被稱為「測試資料(Testing Data)」。
而Step5就和機器學習的「Validation」步驟雷同,既然我們已知文件是收據還是發票,就可以用來測試此一流程是否能正確區分兩者差異,再反覆微調前面所設定的關鍵字或其他屬性以提升辨識效果。

文件理解中的「批次流程」

「批次處理」是頗常見的應用場景,由於需分類的文件往往超過個位數,才有仰賴 RPA 進行自動化流程之必要,而當我們看到批次流程設計時,就一定會使用到「for each」功能(迴圈概念),大方向是將 Step2 到 Step4 放在 for each 的迴圈當中使機器人重複執行,實際範例也會在後續文章進行說明。

總結

這篇文章初步介紹了「文件理解」的基本概念、使用情境以及主要步驟,下一篇文章將會就 RPA 流程開發時的操作細節進行分享。而我們花了這麼多時間設計一套 RPA 流程,無非就是希望能快速而精確地進行大量文書處理,因此 RPAI 數位優化器後續也會撰文分享如何設計「批次處理」流程,那我們就下篇文章見囉!
讓我們一起由簡單開始,成就不簡單!
如果你/妳喜歡這篇文章,歡迎點點愛心或留言,讓我們相互交流和成長!
這次的分享到此告一段落,想了解更多 RPA + AI 與數位轉型的最新趨勢與觀點、RPA 軟體功能介紹及實務應用案例,也歡迎追蹤 RPAI 數位優化器的社群和我們交流互動,我們下次見!
🚀 Instagram:RPAI 數位優化器
🚀 臉書粉絲專頁:RPAI 數位優化器
🚀 YouTube 頻道:RPAI 數位優化器

延伸閱讀

為什麼會看到廣告
111會員
99Content count
我們是以「機器人流程自動化(RPA)」結合「人工智慧(AI)」為主題的中文學習社群,旨在分享 RPA + AI 的學習資源、應用實例和最新發展趨勢,讓工作者透過自動化工具的有效應用,創造數位優化與轉型契機,讓我們一起由簡單開始,成就不簡單!
留言0
查看全部
發表第一個留言支持創作者!
RPAI 數位優化器 的其他內容
即使身處在台灣,使用者也能透過這項工具,使 RPA 機器人於美國加州時區的中午 12 點自動執行任務,而不需要通宵熬夜,RPAI 數位優化器要介紹的是幫了遠端工作者大忙的功臣便是:UiPath Orchestrator 的其中一項功能,可協助使用者安排時程,去執行已經製作完成的機器人。
在 UiPath 的學習道路上,我們常會對這些各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行解說。如果你有使用過 Excel 的 VLOOKUP 功能,那就更不能錯過今天這篇文章所要介紹的 Lookup Data Table 功能!
在 UiPath 的學習道路上,我們常會對這些各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行解說。這篇文章要介紹的是:Excel 資料處理常使用的 Remove Duplicates Range 功能,協助刪除指定區域中所有重複的列,保留最原始的一列資料!
這篇文章將要介紹具「迴圈」概念的 For Each Row in Datatable功能!這個功能主要使用於Excel,可針對指定變數中的行列執行重複操作,舉例來說,若是希望將每一列的C欄內容輸出,或是將每一行的某欄位刪除,就可以使用此一功能。
在 UiPath 學習道路上,我們常會對各項功能(Activities)、參數(Properities)感到混亂,因此 RPAI 數位優化器在這篇文章中,將會介紹與「Excel Application Scope」息息相關的 Excel Read Range 功能!
在 UiPath 學習道路上,我們常會對各項功能、參數感到混亂,因此 RPAI 數位優化器將會介紹各項功能的使用方式以及參數設定,讓你更快速上手 RPA 流程開發!我們首先要介紹的,是在 UiPath 進行 Excel 相關活動時一定會使用的 Excel Application Scope 功能!
即使身處在台灣,使用者也能透過這項工具,使 RPA 機器人於美國加州時區的中午 12 點自動執行任務,而不需要通宵熬夜,RPAI 數位優化器要介紹的是幫了遠端工作者大忙的功臣便是:UiPath Orchestrator 的其中一項功能,可協助使用者安排時程,去執行已經製作完成的機器人。
在 UiPath 的學習道路上,我們常會對這些各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行解說。如果你有使用過 Excel 的 VLOOKUP 功能,那就更不能錯過今天這篇文章所要介紹的 Lookup Data Table 功能!
在 UiPath 的學習道路上,我們常會對這些各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行解說。這篇文章要介紹的是:Excel 資料處理常使用的 Remove Duplicates Range 功能,協助刪除指定區域中所有重複的列,保留最原始的一列資料!
這篇文章將要介紹具「迴圈」概念的 For Each Row in Datatable功能!這個功能主要使用於Excel,可針對指定變數中的行列執行重複操作,舉例來說,若是希望將每一列的C欄內容輸出,或是將每一行的某欄位刪除,就可以使用此一功能。
在 UiPath 學習道路上,我們常會對各項功能(Activities)、參數(Properities)感到混亂,因此 RPAI 數位優化器在這篇文章中,將會介紹與「Excel Application Scope」息息相關的 Excel Read Range 功能!
在 UiPath 學習道路上,我們常會對各項功能、參數感到混亂,因此 RPAI 數位優化器將會介紹各項功能的使用方式以及參數設定,讓你更快速上手 RPA 流程開發!我們首先要介紹的,是在 UiPath 進行 Excel 相關活動時一定會使用的 Excel Application Scope 功能!
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
在 IG 上看到一位前端大大用 Google Apps Script + Line bot 替自己的球隊安排了球經,覺得很有趣,想來玩看看
Thumbnail
本篇文章將教你如何在Kubernetes cluster內部署一個MongoDB,包括取得Manifests、建立Volume、部署實務、基本操作和結論。透過操作演示,讓你瞭解在實務上如何成功建立MongoDB,並進行基本操作。
Thumbnail
題目會定義一組類別和介面,要求我們實做餐廳訂位報號系統。 SeatManager(int n) : 初始化餐廳最多有n個座位,n 最少是1 int reserve() : 要求返回最小的可讓客人入座的空座位編號。 void unreserve(int seatNumber) : 取消訂位,這個座位歸
Thumbnail
最近剛好分配一個需求,要批次更新一些基礎設定資料,而新系統基礎設定資料都統一由別的團隊維護在Google Sheet 上,一開始是要我寫 Laravel Seeder 塞資料表,後來發現也太多數據要批次更新了,數據要對到何時何年,乾脆來研究串 Google Sheet API 整批塞入在對總行數就好
Thumbnail
在撰寫專案時,有時候可能需要做一些特定Exceptions 來拋出error message的情況,而在不同公司任職,大家配置的流程可能就有些不同,這邊將簡單練習如何配置自定義的Exception。
Thumbnail
UiPath(代號:PATH)最近告訴其投資者,它的增長速度正在急劇放緩。該消息導致其股票崩盤,甚至創下歷史新低。
Thumbnail
ARK 在 2021 中最看好的一家公司 UiPath(Path),僅僅 2 個季度,ARK 就將 Path 的持股比重提高到 3.01%(佔總投資比重的第 7 名)
Thumbnail
在前篇提到了訂閱收入的重要性,那UiPATH 在業界的競爭力為何? 怎麼樣確定客戶會選擇UiPATH,而不是其他軟體?在眾多 RPA 軟體裡面 UiPATH 在其中的競爭力為何? UiPATH 在財報中顯示從 2020 Q1 至 2021 Q2 實現了 79% 年複合成長率,未來有可能持
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
在 IG 上看到一位前端大大用 Google Apps Script + Line bot 替自己的球隊安排了球經,覺得很有趣,想來玩看看
Thumbnail
本篇文章將教你如何在Kubernetes cluster內部署一個MongoDB,包括取得Manifests、建立Volume、部署實務、基本操作和結論。透過操作演示,讓你瞭解在實務上如何成功建立MongoDB,並進行基本操作。
Thumbnail
題目會定義一組類別和介面,要求我們實做餐廳訂位報號系統。 SeatManager(int n) : 初始化餐廳最多有n個座位,n 最少是1 int reserve() : 要求返回最小的可讓客人入座的空座位編號。 void unreserve(int seatNumber) : 取消訂位,這個座位歸
Thumbnail
最近剛好分配一個需求,要批次更新一些基礎設定資料,而新系統基礎設定資料都統一由別的團隊維護在Google Sheet 上,一開始是要我寫 Laravel Seeder 塞資料表,後來發現也太多數據要批次更新了,數據要對到何時何年,乾脆來研究串 Google Sheet API 整批塞入在對總行數就好
Thumbnail
在撰寫專案時,有時候可能需要做一些特定Exceptions 來拋出error message的情況,而在不同公司任職,大家配置的流程可能就有些不同,這邊將簡單練習如何配置自定義的Exception。
Thumbnail
UiPath(代號:PATH)最近告訴其投資者,它的增長速度正在急劇放緩。該消息導致其股票崩盤,甚至創下歷史新低。
Thumbnail
ARK 在 2021 中最看好的一家公司 UiPath(Path),僅僅 2 個季度,ARK 就將 Path 的持股比重提高到 3.01%(佔總投資比重的第 7 名)
Thumbnail
在前篇提到了訂閱收入的重要性,那UiPATH 在業界的競爭力為何? 怎麼樣確定客戶會選擇UiPATH,而不是其他軟體?在眾多 RPA 軟體裡面 UiPATH 在其中的競爭力為何? UiPATH 在財報中顯示從 2020 Q1 至 2021 Q2 實現了 79% 年複合成長率,未來有可能持