UiPath 實作 | 七大步驟用 RPA 實現文件理解!

更新於 發佈於 閱讀時間約 7 分鐘
當你因為繁重的工作量忙得分身乏術,卻仍有不少繁瑣而重複性的文書工作需執行時,是否也曾有過以下念頭:
如果有機器人可以來幫我完成的話,那該有多好?
文件理解」可以將我們從消磨熱情的重複性行為解放出來,將有限的專注力投入於創意發想、策略思考等面向,以下將介紹「文件理解」的定義,如何透過 UiPath 這套 RPA 軟體加以實現,並以 UiPath 2022.4.3 ver. 作為說明範例。
在開始閱讀正文之前,也別忘了先追蹤我們的 臉書粉絲專頁方格子帳號

文件理解(Document Understanding)是什麼?

「文件理解」可以透過 RPA 工具,讓機器人模擬人類從一份數位文件的內容擷取、處理並詮釋「資料」(Raw Data),使其成為使用者所需的「資訊」(Information)。
而文件理解能透過 UiPath 等 RPA 工具實現的要件在於,我們需要將文件進行「數位化」,因此文件可以來自手寫、掃描影像或是 PDF 檔等。而相較於 anchor base 專門處理結構化資料(Structured),文件理解的強項則在於可處理半結構化資料(Semi-structured),例如發票、收據等有固定格式的文件。
一些補充
1. 結構性(Structured):具備 key 和 value 的組合,例如 key 為「姓名」、 value 為「王O明」,這樣的資料結構常見於有固定格式的履歷當中。
2. 非結構性(Unstructured):內容沒有統一格式,也沒有互相對應的 key 和 value,例如 e-mail 或是文章。
3. 半結構性(Semi-structured):同時具結構性和非結構性的特徵,例如發票或收據。
4. Anchor base 是利用表格「固定欄位對應到一個固定內容」的特性,並使用定位點的方式,讓機器人得以正確辨識目標以利後續流程進行,詳細說明可以參考先前文章「透過 UiPath 實現 Excel 自動化」,裡面有實際參考範例。

以 RPA 實現文件理解的七大步驟

圖一:製作文件理解機器人的七大步驟
如果還想學習更多 UiPath 功能、實作案例並了解最新自動化趨勢,
歡迎加入「零基礎快速學習 RPA-利用 UiPath 建構自動化機器人」線上課程!課程優惠只到 2024 年 2 月 5 日,快點擊連結立即了解:https://mastertalks.tw/products/rpa-uipath?ref=RPARPA
Step1:建立分類系統(Create and load taxonomy)
Taxonomy 是生物領域中專門用於分類樹上的英文詞彙,從這個詞彙進行概念延伸,此一步驟是要先定義(Define)文件理解需要分類成幾個單位,每個單位有哪些文件,進而判斷需要判讀的文件應該啟動哪個流程。
Step2:文件數位化(Digitization)【須批次處理】
此一步驟就是將文件轉化為 UiPath 可讀取的(Readable)的數位檔案,如果要使用文件辨識技術(OCR)進行轉化,則需要先安裝 Omnipackage(也就是OCR engines),如果要讀取的文件就是數位資料的話,則可以略過這個步驟
Step3:文件分類(Classification)【須批次處理】
在這個步驟,我們需要將已經數位化的資料或檔案分類至 Step1 建立的 Taxonomy 類別中,可以使用 UiPath 的「classify document scope」功能。
Step4:擷取資訊(Extraction)【須批次處理】
顧名思義,我們要在這個階段擷取出數位檔案中的關鍵字,來協助電腦辨別這份文件是屬於哪個類別,當關鍵字設定得越精確,分類效果越佳。而 UiPath 提供三種 Extraction 的概念可以設定(config),包括 Form based、ML based、Regex based,後續的文章會再詳細說明如何設定。
Step5:驗證資訊(Validation)
此一步驟是為了確認文件分類的正確與否,當我們發現分類效果並沒有達到可以接受的程度時,就需要回到上一個步驟,重新評估是否有更好的關鍵字設定。一旦確認先前的設定足以應付文件分類後,Step5 將不會出現在正式執行機器人的流程當中,而只屬於流程設計中的其中一個過程而已。
Step6:輸出資訊(Export)
文件理解的主要用途,在於協助使用者擷取出大量電子的檔案中的所需資訊,因此這一個步驟將會視使用者所處的個別情況,並搭配不同功能設計以達成流程優化的需求。
Step7:訓練(Train)
Step4 中提到擷取文件資訊的方式有三種選擇,我們可以在流程設計中同時選擇使用這三種方式,例如人力資源部門的文件使用 ML based 的效果最佳,那麽只要在第三步驟被判斷為人力資源部門的文件,後續步驟中就可使用 ML based,同理也可運用於其他部門的文件當中。而為了評估個別文件最適合哪一種資訊擷取方式,我們需要使用現有檔案訓練 RPA 機器人,以提升機器人判斷準確率。
補充:
近年來機器學習應用蔚為風潮,應用範疇更是包羅萬象,其中在進行機器學習演算法的設計時,主要會分成以下三種類型:
1. Train:是用來設計並訓練機器學習模型
2. Validation:是用已知答案的資料去驗證此一模型的效果好壞
3. Testing:則會使用(模型未看過的)全新資料提供模型進行辨識與分類,這些資料又被稱為「測試資料(Testing Data)」。
而Step5就和機器學習的「Validation」步驟雷同,既然我們已知文件是收據還是發票,就可以用來測試此一流程是否能正確區分兩者差異,再反覆微調前面所設定的關鍵字或其他屬性以提升辨識效果。

文件理解中的「批次流程」

「批次處理」是頗常見的應用場景,由於需分類的文件往往超過個位數,才有仰賴 RPA 進行自動化流程之必要,而當我們看到批次流程設計時,就一定會使用到「for each」功能(迴圈概念),大方向是將 Step2 到 Step4 放在 for each 的迴圈當中使機器人重複執行,實際範例也會在後續文章進行說明。

總結

這篇文章初步介紹了「文件理解」的基本概念、使用情境以及主要步驟,下一篇文章將會就 RPA 流程開發時的操作細節進行分享。而我們花了這麼多時間設計一套 RPA 流程,無非就是希望能快速而精確地進行大量文書處理,因此 RPAI 數位優化器後續也會撰文分享如何設計「批次處理」流程,那我們就下篇文章見囉!
讓我們一起由簡單開始,成就不簡單!
如果你/妳喜歡這篇文章,歡迎點點愛心或留言,讓我們相互交流和成長!
這次的分享到此告一段落,想了解更多 RPA + AI 與數位轉型的最新趨勢與觀點、RPA 軟體功能介紹及實務應用案例,也歡迎追蹤 RPAI 數位優化器的社群和我們交流互動,我們下次見!
🚀 Instagram:RPAI 數位優化器
🚀 臉書粉絲專頁:RPAI 數位優化器
🚀 YouTube 頻道:RPAI 數位優化器

延伸閱讀

為什麼會看到廣告
avatar-img
147會員
120內容數
我們是以「機器人流程自動化(RPA)」結合「人工智慧(AI)」為主題的中文學習社群,旨在分享 RPA + AI 的學習資源、應用實例和最新發展趨勢,讓工作者透過自動化工具的有效應用,創造數位優化與轉型契機,讓我們一起由簡單開始,成就不簡單!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
RPAI 數位優化器 的其他內容
即使身處在台灣,使用者也能透過這項工具,使 RPA 機器人於美國加州時區的中午 12 點自動執行任務,而不需要通宵熬夜,RPAI 數位優化器要介紹的是幫了遠端工作者大忙的功臣便是:UiPath Orchestrator 的其中一項功能,可協助使用者安排時程,去執行已經製作完成的機器人。
在 UiPath 的學習道路上,我們常會對這些各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行解說。如果你有使用過 Excel 的 VLOOKUP 功能,那就更不能錯過今天這篇文章所要介紹的 Lookup Data Table 功能!
在 UiPath 的學習道路上,我們常會對這些各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行解說。這篇文章要介紹的是:Excel 資料處理常使用的 Remove Duplicates Range 功能,協助刪除指定區域中所有重複的列,保留最原始的一列資料!
這篇文章將要介紹具「迴圈」概念的 For Each Row in Datatable功能!這個功能主要使用於Excel,可針對指定變數中的行列執行重複操作,舉例來說,若是希望將每一列的C欄內容輸出,或是將每一行的某欄位刪除,就可以使用此一功能。
在 UiPath 學習道路上,我們常會對各項功能(Activities)、參數(Properities)感到混亂,因此 RPAI 數位優化器在這篇文章中,將會介紹與「Excel Application Scope」息息相關的 Excel Read Range 功能!
在 UiPath 學習道路上,我們常會對各項功能、參數感到混亂,因此 RPAI 數位優化器將會介紹各項功能的使用方式以及參數設定,讓你更快速上手 RPA 流程開發!我們首先要介紹的,是在 UiPath 進行 Excel 相關活動時一定會使用的 Excel Application Scope 功能!
即使身處在台灣,使用者也能透過這項工具,使 RPA 機器人於美國加州時區的中午 12 點自動執行任務,而不需要通宵熬夜,RPAI 數位優化器要介紹的是幫了遠端工作者大忙的功臣便是:UiPath Orchestrator 的其中一項功能,可協助使用者安排時程,去執行已經製作完成的機器人。
在 UiPath 的學習道路上,我們常會對這些各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行解說。如果你有使用過 Excel 的 VLOOKUP 功能,那就更不能錯過今天這篇文章所要介紹的 Lookup Data Table 功能!
在 UiPath 的學習道路上,我們常會對這些各項功能、參數感到混亂,因此 RPAI 數位優化器的系列文章將會對這些功能參數進行解說。這篇文章要介紹的是:Excel 資料處理常使用的 Remove Duplicates Range 功能,協助刪除指定區域中所有重複的列,保留最原始的一列資料!
這篇文章將要介紹具「迴圈」概念的 For Each Row in Datatable功能!這個功能主要使用於Excel,可針對指定變數中的行列執行重複操作,舉例來說,若是希望將每一列的C欄內容輸出,或是將每一行的某欄位刪除,就可以使用此一功能。
在 UiPath 學習道路上,我們常會對各項功能(Activities)、參數(Properities)感到混亂,因此 RPAI 數位優化器在這篇文章中,將會介紹與「Excel Application Scope」息息相關的 Excel Read Range 功能!
在 UiPath 學習道路上,我們常會對各項功能、參數感到混亂,因此 RPAI 數位優化器將會介紹各項功能的使用方式以及參數設定,讓你更快速上手 RPA 流程開發!我們首先要介紹的,是在 UiPath 進行 Excel 相關活動時一定會使用的 Excel Application Scope 功能!
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
隨著企業競爭日益激烈,公司開始透過技術改進來提高效率和自動化工作流程。企業軟件,如ERP系統和機器人流程自動化(RPA)系統的引入,不是為了裁減員工,而是為了提升效率和實現自動化流程。本文探討了ERP和RPA自動化工作流程的多個好處,並介紹了3個強大的企業軟件公司。
Thumbnail
UiPath是一家提供流程自動化解決方案的公司,從產業、應用的角度深入探討公司的發展歷程。先從流程自動化的起源談起,接著介紹了UiPath的創始人和公司的發展過程,以及RPA對企業帶來的影響。最後探討了流程自動化的下一步:全面性與智能化對企業的衝擊,並提出了科技公司的見解和對話的呼籲。
Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 是可模仿人類行為與能力的軟體,主要的工作包含: 機器學習:這通常是 AI 系統的基礎,且是「指導」電腦模型進行預測並從資料中得出結論的方式 電腦視覺:透過相機、影片和影像,以視覺方式解譯世界的 AI 功能
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
UiPath 是一家領先的機器人流程自動化(RPA)公司,總部位於紐約。本篇文章介紹了 UiPath 最新推出的 Automation Hub 和與 Microsoft 的合作等重要新聞,以及其在市場上的表現和競爭對手情況。文章最後還分享了未來可能的行動和發展趨勢。歡迎留言交流和討論!
Thumbnail
數位化浪潮中,人資工作正在透過自動化工具變得簡單高效。自動化可以應用於入職流程、薪資和假期管理,並提供更多數據分析的可能性。
Thumbnail
在數字化時代,PDF文件廣泛使用,但傳統處理方式顯得力不從心。本文推薦pdftopdf.ai等工具,通過OCR識別,將圖片中的文字轉化為可編輯、可搜索的文本。探討PDF文檔分析的AI工具,功能和價格。描述其用途以解決掃描件中文字無法直接搜索的困擾,提高工作效率。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
Thumbnail
業務流程自動化 (BPA, Business Process Automation) 是一種利用技術工具和系統,來自動執行、監控和管理企業流程的方法。企業需要以更少的資源做更多的事,來確保流程達到高效率的目的。許多企業開始建置業務流程自動化作業,解決工作流程中的獨特問題,將生產力最大化。
Thumbnail
本文延續先前刊登於《服務研究期刊》(Journal of Service Research)的論文《使用人工智慧執行服務》(Artificial Intelligence in Service),該論文建立了四種AI類型的框架,包括機械型AI、分析型AI、直覺型AI和共鳴型AI。基於這個框架,我們將
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
隨著企業競爭日益激烈,公司開始透過技術改進來提高效率和自動化工作流程。企業軟件,如ERP系統和機器人流程自動化(RPA)系統的引入,不是為了裁減員工,而是為了提升效率和實現自動化流程。本文探討了ERP和RPA自動化工作流程的多個好處,並介紹了3個強大的企業軟件公司。
Thumbnail
UiPath是一家提供流程自動化解決方案的公司,從產業、應用的角度深入探討公司的發展歷程。先從流程自動化的起源談起,接著介紹了UiPath的創始人和公司的發展過程,以及RPA對企業帶來的影響。最後探討了流程自動化的下一步:全面性與智能化對企業的衝擊,並提出了科技公司的見解和對話的呼籲。
Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 是可模仿人類行為與能力的軟體,主要的工作包含: 機器學習:這通常是 AI 系統的基礎,且是「指導」電腦模型進行預測並從資料中得出結論的方式 電腦視覺:透過相機、影片和影像,以視覺方式解譯世界的 AI 功能
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
UiPath 是一家領先的機器人流程自動化(RPA)公司,總部位於紐約。本篇文章介紹了 UiPath 最新推出的 Automation Hub 和與 Microsoft 的合作等重要新聞,以及其在市場上的表現和競爭對手情況。文章最後還分享了未來可能的行動和發展趨勢。歡迎留言交流和討論!
Thumbnail
數位化浪潮中,人資工作正在透過自動化工具變得簡單高效。自動化可以應用於入職流程、薪資和假期管理,並提供更多數據分析的可能性。
Thumbnail
在數字化時代,PDF文件廣泛使用,但傳統處理方式顯得力不從心。本文推薦pdftopdf.ai等工具,通過OCR識別,將圖片中的文字轉化為可編輯、可搜索的文本。探討PDF文檔分析的AI工具,功能和價格。描述其用途以解決掃描件中文字無法直接搜索的困擾,提高工作效率。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
Thumbnail
業務流程自動化 (BPA, Business Process Automation) 是一種利用技術工具和系統,來自動執行、監控和管理企業流程的方法。企業需要以更少的資源做更多的事,來確保流程達到高效率的目的。許多企業開始建置業務流程自動化作業,解決工作流程中的獨特問題,將生產力最大化。
Thumbnail
本文延續先前刊登於《服務研究期刊》(Journal of Service Research)的論文《使用人工智慧執行服務》(Artificial Intelligence in Service),該論文建立了四種AI類型的框架,包括機械型AI、分析型AI、直覺型AI和共鳴型AI。基於這個框架,我們將