Amazon Transcribe

2025/08/08 更新2025/06/10 發佈閱讀 8 分鐘

Amazon Transcribe 是一項 全託管的機器學習服務，它能夠將語音自動轉換為文字。它利用深度學習模型來進行自動語音辨識 (Automatic Speech Recognition, ASR)，讓開發人員能夠輕鬆地將音訊和視訊檔案中的口語內容轉換成文字，而無需具備機器學習專業知識。

Amazon Transcribe 的核心功能與優勢

Transcribe 的目標是讓語音內容可以被「搜尋」、「分析」和「應用」。

高精度語音轉文字 (High-Accuracy Speech-to-Text)：
- 能夠將音訊和視訊中的語音內容轉換為高精度的文字。
- 支援多種語言和口音。
自動標點符號和格式化 (Automatic Punctuation and Formatting)：
- 自動添加標點符號（逗號、句號、問號等），使轉錄的文字更具可讀性。
- 提供數字和貨幣的格式化選項。
多聲道轉錄 (Multi-Channel Transcription)：
- 能夠識別不同音頻通道的說話者，並為每個說話者生成單獨的轉錄。這對於聯絡中心的通話記錄（客戶和代理之間的對話）非常有用。
說話者分離 (Speaker Diarization)：
- 自動識別音訊中不同說話者的身份，並為每個說話者分配標籤（例如：spk_0, spk_1），這對於會議記錄、訪談和聯絡中心通話分析至關重要。
自訂詞彙表 (Custom Vocabularies)：
- 允許你提供特定領域的詞彙列表（例如專有名詞、品牌名稱、產品名稱），以提高轉錄這些詞彙的準確性。這對於醫療、法律、科學等領域特別有用。
自訂語言模型 (Custom Language Models, CLM)：
- 更進階的自訂功能，你可以提供與你的業務或應用程式相關的大量文字數據，來訓練一個客製化的語言模型，進一步提升轉錄在特定口音、特定領域術語或特殊說話風格下的準確性。
內容編輯/過濾 (Content Redaction/Filtering)：
- 個人身份資訊 (PII) 編輯：自動偵測並編輯（遮蔽或替換）音訊中的敏感個人身份資訊 (PII)，例如電話號碼、電子郵件、信用卡號碼等，以保護隱私和符合法規。
- 自訂內容篩選：你可以提供一個詞彙列表，讓 Transcribe 在轉錄時自動篩選掉或替換掉這些不希望出現的詞彙。
即時轉錄 (Real-time Transcription)：
- 能夠將即時音訊流（例如來自麥克風或電話會議）轉換為文字，提供近乎即時的轉錄結果。這對於即時字幕、會議記錄或聯絡中心應用非常關鍵。
通道識別 (Channel Identification)：
- 對於雙聲道音頻，可以識別哪個通道屬於客戶，哪個通道屬於代理。
醫療保健專業版 (Medical and Clinical Transcription)：
- Amazon Transcribe Medical 是一個專門針對醫療保健領域優化的版本，能夠準確轉錄醫患對話、臨床筆記等，並理解醫療術語。

Amazon Transcribe 的應用場景

聯絡中心分析：
- 將客戶與客服人員的通話內容轉錄成文字，方便分析客戶情緒、問題趨勢、代理效能和合規性。
- 實時轉錄可提供即時輔助給客服人員。
媒體與娛樂：
- 為影片、播客和廣播節目自動生成字幕和副標題，提高內容的可訪問性和可搜尋性。
- 快速索引媒體內容，方便內容創作者搜尋和編輯。
會議記錄與生產力工具：
- 將會議、講座和研討會的錄音轉錄為文字記錄，方便後續查閱和分享。
- 語音記事本應用。
教育：
- 為線上課程、講座提供文字轉錄，方便學生查閱筆記或搜尋特定內容。
語音搜尋與分析：
- 將語音內容轉換為文字，使語音內容可以被搜尋引擎索引，或進一步使用其他 NLP 服務（如 Amazon Comprehend）進行分析。
法律與政府：
- 轉錄法庭記錄、會議、證詞等。
語音驅動的應用：
- 作為語音使用者介面的基礎，例如語音控制遊戲、應用程式指令等。

Amazon Transcribe 的優勢

高準確性：基於深度學習模型，提供高精度的語音轉文字能力。
全託管服務：你無需管理任何基礎設施，只需使用 API 即可。
可擴展性：能夠處理從少量音訊到數百萬小時音訊的轉錄需求。
成本效益：按實際使用的音訊時長計費，無需前期投入。
多功能性：支援批次和即時轉錄，以及多種自訂和編輯功能。
與 AWS 服務整合：可與 Amazon S3 (儲存音訊)、Amazon Comprehend (文本分析)、Amazon Lex (聊天機器人)、Amazon Connect (聯絡中心) 等服務無縫整合，形成完整的語音應用解決方案。

Amazon Transcribe 的計費方式

Amazon Transcribe 的計費是按使用量付費 (pay-as-you-go)，主要根據你處理的音訊時長（以秒為單位）。

主要計費項目包括：

標準轉錄 (Standard Transcription)：
- 批次轉錄 (Batch Transcription)：按處理的音訊分鐘數計費，這是最常見的計費方式。
- 即時轉錄 (Real-time Transcription)：按處理的音訊分鐘數計費，通常會略高於批次轉錄的費用。
Transcribe Medical (醫療版)：
- 針對醫療應用提供更高的準確性，費用通常高於標準轉錄，也是按音訊分鐘數計費。
個人身份資訊 (PII) 編輯 (PII Redaction)：
- 如果你啟用了 PII 編輯功能，會根據處理的音訊分鐘數產生額外費用。
自訂語言模型 (Custom Language Models, CLM)：
- 訓練費用：按訓練模型所用的時間（小時）計費。
- 託管費用：一旦模型訓練完成並託管，會按模型託管的時間（小時）計費。
自訂詞彙表 (Custom Vocabularies)：
- 通常不額外收費，或費用很低，因為它只是一個列表。

AWS 通常提供免費試用層 (Free Tier)，讓你可以免費體驗 Amazon Transcribe 的部分功能（例如每月一定量的音訊轉錄）。

由於具體價格會因地區、你使用的功能類型（標準、醫療、即時）、以及音訊時長而有很大差異，並且價格通常是按「每分鐘」或「每小時」來報價，建議你查閱 AWS 官方網站的 Amazon Transcribe 定價頁面 (aws.amazon.com/transcribe/pricing/)，並使用 AWS 定價計算器 來估算你的具體成本。

總而言之，Amazon Transcribe 讓開發者能夠輕鬆地將大量的語音內容轉換為可用的文字資料，為各種應用提供了新的可能性，從提升客戶服務到豐富媒體內容，再到智慧化生產力工具。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記AWS AIF-C01

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

27會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/06/10

Amazon Translate

Amazon Translate 是一種由 Amazon Web Services (AWS) 提供的神經網路機器翻譯服務。它使用先進的深度學習模型，可以提供高品質且即時的語言翻譯。簡單來說，Amazon Translate 可以幫助您將文字從一種語言自動翻譯成另一種語言。它支援多種語言對，而且

2025/06/10

Amazon Translate

2025/06/10

Amazon Lex

Amazon Lex 是一種由 Amazon Web Services (AWS) 提供的服務，可以讓您使用語音或文字在應用程式中建立對話式介面（例如聊天機器人）。它採用了與 Amazon Alexa 相同的技術，包括自然語言理解 (Natural Language Understanding, N

2025/06/10

Amazon Lex

2025/06/10

Amazon Polly

Amazon Polly 是一種由 Amazon Web Services (AWS) 提供的雲端服務，它可以將文字轉換為逼真的語音。您可以使用 Amazon Polly 開發具有語音功能的應用程式和產品，以提高互動性和可存取性。簡單來說，Amazon Polly 是一個文字轉語音 (Text-

2025/06/10

Amazon Polly

看更多

你可能也想看