

文件智慧 心智圖(自製)
簡介
文件智慧是建立在機器學習模型上的技術,這些模型經過訓練,能夠辨識文件中的資料,自動從影像和 PDF 讀取資料和資訊。諸如文字擷取、版面解析(layout)、鍵值對擷取,統稱為文件分析(Document Analysis)。
鍵值對擷取key-value pairs
- 以紙本收據的照片為例,收據上的資訊「123 Main Street」會被擷取為一組鍵值對
Key(欄位名稱):address(地址)Value(欄位值):123 Main Street - 系統也會記錄這段文字在文件中的位置,例如邊界框座標(bounding box coordinates):
[4.1, 2.2], [4.3, 2.2], [4.3, 2.4], [4.1, 2.4] - 機器學習模型能夠根據這些座標與對應文字學習如何辨識表格或文件中的資料模式,進而達成結構化擷取。
自動化文件分析
- 優點:加快作業流程、改善顧客體驗、提升決策效率、減少人工輸入錯誤。
- 挑戰:文件與表單的格式多變
有時可以用 預建模型(prebuilt models),這些模型以針對常見文件訓練好了,若是特殊表單,就需要訓練客製化模型。
Azure AI文件智慧服務功能 Azure AI Document Intelligence
Azure AI文件智慧服務包含以下功能:
- 文件分析 Document analysis:一般的文件結構化分析,輸出包含重點區域(region of interest)與其關聯關係的資料表示方式。
- 預設模型 Prebuilt models:已訓練完成的模型,可處理常見文件,如發票、名片、身分證。
- 自訂義模型 Custom models:針對現有預建模型未涵蓋的欄位進行訓練與客製化。包含自訂分類模型、文件欄位擷取模型(如Custom Generative AI Model, custom neural model.)
預設模型Prebuilt models
- 預設模型可以辨識與擷取文件中的文字、鍵值對、表格、結構資訊。
- 支援文件類型包含財務與法律文件,如美國的稅務文件、房貸文件、銷售發票、商務合約等等。
- 以收據模型為例,該模型可以辨識各種收據,如熱感紙收據、加油站發票、信用卡簽單等等,且支援多種語言。
辨識欄位包含:商家姓名/地址/電話、日期、購買品名/金額/數量、總金額、稅額每個辨識的資料組會包含信賴分數(confidence score),表示擷取結果的可信度。

預設收據模型

預設名片模型
如何使用 Azure AI Document Intelligence?
- 在 Azure 訂閱 Document Intelligence 或 Azure AI Services 。
若是第一次使用建議選擇免費層Free tier (限制PDF 或 TIFF 文件最多處理前兩頁) - 建立完成後可從Document Intelligence Studio或從Azure AI Foundry 入口網站使用文件智慧服務。
練習 - 從Azure AI Foundry 入口網站中的文件擷取數據
https://microsoftlearning.github.io/mslearn-ai-fundamentals/Instructions/Labs/10-document-intelligence.html建立專案
- 使用微軟Azure帳號登入:https://ai.azure.com
- 前往 https://ai.azure.com/managementCenter/allResources
- 建立專案
(1)點選Create new,點選建立Azure AI 中樞資源 (AI hub resource)
(2)輸入專案名稱(英文或數字)
點選進階選項,設定區域為以下任一:
East US
France Central
Korea Central
West Europe
West US - 專案建立好之後,可看到總覽頁面,在左側選單中點選AI服務(AI services),在該頁面中點選視覺+文件(Vision + Document)

建立Azure AI 中樞資源

視覺+文件(Vision + Document)
分析收據 Analyze a receipt
- 在視覺+文件頁面下方選擇分頁文件Document→收據Receipt
- 下載另存此張範例收據
- 拖曳收據圖片檔案到上傳欄位,並點擊Run analysis
當分析完成後,系統會回傳結果。可看到服務已成功辨識出特定的資料欄位。在每個欄位旁邊會顯示百分比機率,表示該欄位預測為正確的信心程度。

文件Document→收據Receipt

收據分析結果
清除資料
- 當不再使用此功能時,記得刪除資源,以避免產生費用。
- 開啟Azure Portal,登入後,選擇下方的資源群組,點擊剛剛建立的資源名稱,點選「刪除資源群組」,輸入群組名稱後確認刪除。

刪除資源群組



















