Amazon Textract 是一項 全託管的機器學習 (ML) 服務,它能夠從任何文件中自動提取文字、手寫內容以及結構化資料(如表格和表單),而無需手動操作或預先設定範本。它不僅僅是簡單的文字辨識 (OCR),更能理解文件的結構和上下文,從而提取出有意義的資料。
Amazon Textract 的核心功能與優勢
Textract 的強大之處在於它能「理解」文件,並將非結構化或半結構化的數據轉換為易於分析和利用的結構化數據。
- 文字偵測 (Text Detection):
- 能夠準確識別印刷文字和手寫文字,即使文件品質不佳、文字傾斜或在複雜背景中。
- 提供每個文字塊的邊界框 (bounding box),讓你知道文字在文件中的確切位置。
- 表單提取 (Form Extraction):
- 自動識別表單中的鍵值對 (key-value pairs)。例如,從申請表單中識別出「姓名:[王小明]」或「地址:[台北市信義區]」。
- 這對於自動化資料輸入、處理申請和問卷調查非常有用。
- 表格提取 (Table Extraction):
- 能夠智慧地偵測文件中的表格結構,並將表格中的數據提取出來,同時保留其行和列的關係。
- 這對於處理發票、採購訂單、財務報表等包含大量表格數據的文件非常有效。
- 查詢 (Queries):
- 這是一項進階功能,允許你用自然語言提出問題,並讓 Textract 從文件中找到答案。例如,你可以問「這張發票的總金額是多少?」或「申請人的生日是什麼?」,Textract 會根據上下文和文件中相關的內容來回答。
- 支援自訂查詢,你可以訓練模型來回答特定業務領域的問題。
- 簽章偵測 (Signature Detection):
- 能夠在文件中偵測是否存在簽章,這對於審核合同或法律文件很有用。
- 佈局分析 (Layout Analysis):
- 理解文件的整體佈局,例如段落、標題、列表、頁碼等,並以結構化的方式呈現這些元素,有助於將文件內容轉換為更易讀的格式(如 Markdown 或 HTML)。
- 專門的分析 API (Specialized APIs):
- Analyze Invoice and Receipt:專門用於處理發票和收據,能夠自動提取如供應商名稱、發票號碼、總金額、稅額、行項目等關鍵數據。
- Analyze Identity Documents:專門用於處理身份證件(如護照、駕照),提取姓名、出生日期、證件號碼、簽發日期等關鍵資訊。
- Analyze Lending Documents:自動分類貸款文件,並提取關鍵資訊以加速貸款處理流程。
- 客製化輸出 (Custom Outputs) / Adapters:
- 允許你訓練和微調 Textract 模型,以更精確地從特定文件類型中提取數據,尤其是針對你獨特或非常規的文件格式。
Amazon Textract 的應用場景
- 金融服務:自動處理貸款申請、抵押貸款文件、發票、銀行對帳單,加快審批流程。
- 醫療保健與生命科學:從病患病歷、保險理賠單、醫療表格中提取關鍵資訊,提升數據管理效率。
- 公共部門:自動化處理政府申請表單、稅務文件、商業許可證等。
- 法律與合規:從合同、法律文件中提取條款、日期和簽章,簡化文件審閱。
- 零售與電子商務:自動處理供應商發票、收據、退貨單,優化庫存管理和財務核算。
- 數位化歸檔:將實體文件快速轉換為可搜尋、可分析的數位化數據,建立智能文件庫。
- 數據自動化輸入:取代人工將紙本資料輸入到數位系統的工作,大幅提高效率並減少錯誤。
Amazon Textract 與其他 AWS AI 服務的比較
- Amazon Textract vs. Amazon Rekognition:
- Textract 專注於從文件中提取文字、手寫內容、表單和表格等結構化資料,它的主要目的是理解文件的內容和佈局。
- Rekognition 則是一個更通用的電腦視覺服務,它能偵測圖片和影片中的物件、人物、場景,也可以偵測圖片中的文字(例如街頭招牌、產品標籤上的文字),但它不會像 Textract 那樣深入理解文件結構,也不會提取表格或鍵值對。
- 簡單來說:Rekognition 看重「圖像中的內容」,Textract 專注於「文件中的資訊」。如果你需要從掃描的發票中提取發票號碼和總金額,你會用 Textract;如果你需要識別圖片中的品牌 Logo,你會用 Rekognition。
- Amazon Textract vs. Amazon Comprehend:
- Textract 的主要任務是從文件或圖像中「提取」文字和結構(OCR 和數據提取)。它將非結構化或半結構化的圖像資料轉換為可讀的文字和結構化數據。
- Comprehend 的主要任務是**「理解」文字內容**,它在文字已經被提取出來的基礎上進行自然語言處理 (NLP)。Comprehend 可以對 Textract 提取出來的文字進行情感分析、實體識別、關鍵短語提取、語言偵測和文本分類等。
- 簡單來說:Textract 是將圖片或 PDF 上的文字「讀出來」並「理解其結構」(例如哪些是表格、哪些是鍵值對),而 Comprehend 則是對「讀出來的文字」進行深層次的語義分析。兩者經常一起使用,Textract 負責提取,Comprehend 負責分析洞察。
Amazon Textract 的計費方式
Amazon Textract 採用按使用量付費 (pay-as-you-go) 的模式,費用主要根據你處理的文件頁數以及使用的功能來計算。主要計費項目包括:
- 文字偵測 (Detect Document Text):按每頁偵測到的文字計費。
- 文件分析 (Analyze Document):這包含更進階的功能,如表格、表單 (鍵值對) 和查詢的提取。費用會根據你選擇提取的功能組合(例如僅表格、僅表單、或表格+表單+查詢)而有所不同,按每頁計費。
- 專門 API (Specialized APIs):例如 Analyze Invoice and Receipt、Analyze Identity Documents、Analyze Lending Documents 等,它們通常也有各自的每頁計費標準。
- 簽章偵測 (Signature Detection):按每頁計費。
- 佈局分析 (Layout Analysis):按每頁計費。
- 自訂適配器 (Custom Adapters):
- 訓練費用:按訓練模型所用的時間(小時)計費。
- 推論費用:按使用自訂模型進行分析時的頁數計費。
AWS 提供免費試用層 (Free Tier),讓你可以免費體驗 Textract 的部分功能(例如每月前幾千頁的文字偵測和文件分析)。
由於具體價格會因地區、你使用的功能類型、以及處理的文件數量而有很大差異,並且價格通常是按「每 1,000 頁」來報價,建議你查閱 AWS 官方網站的 Amazon Textract 定價頁面 (aws.amazon.com/textract/pricing/),並使用 AWS 定價計算器 來估算你的具體成本。
總而言之,Amazon Textract 是一款功能強大的服務,對於需要從大量紙本或電子文件中自動提取結構化和非結構化數據的企業來說,它能顯著提高效率,降低人工成本,並加速決策過程。