Amazon Transcribe

更新於 發佈於 閱讀時間約 8 分鐘

Amazon Transcribe 是一項 全託管的機器學習服務,它能夠將語音自動轉換為文字。它利用深度學習模型來進行自動語音辨識 (Automatic Speech Recognition, ASR),讓開發人員能夠輕鬆地將音訊和視訊檔案中的口語內容轉換成文字,而無需具備機器學習專業知識。


Amazon Transcribe 的核心功能與優勢

Transcribe 的目標是讓語音內容可以被「搜尋」、「分析」和「應用」。

  1. 高精度語音轉文字 (High-Accuracy Speech-to-Text)
    • 能夠將音訊和視訊中的語音內容轉換為高精度的文字。
    • 支援多種語言和口音。
  2. 自動標點符號和格式化 (Automatic Punctuation and Formatting)
    • 自動添加標點符號(逗號、句號、問號等),使轉錄的文字更具可讀性。
    • 提供數字和貨幣的格式化選項。
  3. 多聲道轉錄 (Multi-Channel Transcription)
    • 能夠識別不同音頻通道的說話者,並為每個說話者生成單獨的轉錄。這對於聯絡中心的通話記錄(客戶和代理之間的對話)非常有用。
  4. 說話者分離 (Speaker Diarization)
    • 自動識別音訊中不同說話者的身份,並為每個說話者分配標籤(例如:spk_0, spk_1),這對於會議記錄、訪談和聯絡中心通話分析至關重要。
  5. 自訂詞彙表 (Custom Vocabularies)
    • 允許你提供特定領域的詞彙列表(例如專有名詞、品牌名稱、產品名稱),以提高轉錄這些詞彙的準確性。這對於醫療、法律、科學等領域特別有用。
  6. 自訂語言模型 (Custom Language Models, CLM)
    • 更進階的自訂功能,你可以提供與你的業務或應用程式相關的大量文字數據,來訓練一個客製化的語言模型,進一步提升轉錄在特定口音、特定領域術語或特殊說話風格下的準確性。
  7. 內容編輯/過濾 (Content Redaction/Filtering)
    • 個人身份資訊 (PII) 編輯:自動偵測並編輯(遮蔽或替換)音訊中的敏感個人身份資訊 (PII),例如電話號碼、電子郵件、信用卡號碼等,以保護隱私和符合法規。
    • 自訂內容篩選:你可以提供一個詞彙列表,讓 Transcribe 在轉錄時自動篩選掉或替換掉這些不希望出現的詞彙。
  8. 即時轉錄 (Real-time Transcription)
    • 能夠將即時音訊流(例如來自麥克風或電話會議)轉換為文字,提供近乎即時的轉錄結果。這對於即時字幕、會議記錄或聯絡中心應用非常關鍵。
  9. 通道識別 (Channel Identification)
    • 對於雙聲道音頻,可以識別哪個通道屬於客戶,哪個通道屬於代理。
  10. 醫療保健專業版 (Medical and Clinical Transcription)
    • Amazon Transcribe Medical 是一個專門針對醫療保健領域優化的版本,能夠準確轉錄醫患對話、臨床筆記等,並理解醫療術語。

Amazon Transcribe 的應用場景

  • 聯絡中心分析
    • 將客戶與客服人員的通話內容轉錄成文字,方便分析客戶情緒、問題趨勢、代理效能和合規性。
    • 實時轉錄可提供即時輔助給客服人員。
  • 媒體與娛樂
    • 為影片、播客和廣播節目自動生成字幕和副標題,提高內容的可訪問性和可搜尋性。
    • 快速索引媒體內容,方便內容創作者搜尋和編輯。
  • 會議記錄與生產力工具
    • 將會議、講座和研討會的錄音轉錄為文字記錄,方便後續查閱和分享。
    • 語音記事本應用。
  • 教育
    • 為線上課程、講座提供文字轉錄,方便學生查閱筆記或搜尋特定內容。
  • 語音搜尋與分析
    • 將語音內容轉換為文字,使語音內容可以被搜尋引擎索引,或進一步使用其他 NLP 服務(如 Amazon Comprehend)進行分析。
  • 法律與政府
    • 轉錄法庭記錄、會議、證詞等。
  • 語音驅動的應用
    • 作為語音使用者介面的基礎,例如語音控制遊戲、應用程式指令等。

Amazon Transcribe 的優勢

  • 高準確性:基於深度學習模型,提供高精度的語音轉文字能力。
  • 全託管服務:你無需管理任何基礎設施,只需使用 API 即可。
  • 可擴展性:能夠處理從少量音訊到數百萬小時音訊的轉錄需求。
  • 成本效益:按實際使用的音訊時長計費,無需前期投入。
  • 多功能性:支援批次和即時轉錄,以及多種自訂和編輯功能。
  • 與 AWS 服務整合:可與 Amazon S3 (儲存音訊)、Amazon Comprehend (文本分析)、Amazon Lex (聊天機器人)、Amazon Connect (聯絡中心) 等服務無縫整合,形成完整的語音應用解決方案。

Amazon Transcribe 的計費方式

Amazon Transcribe 的計費是按使用量付費 (pay-as-you-go),主要根據你處理的音訊時長(以秒為單位)

主要計費項目包括:

  • 標準轉錄 (Standard Transcription)
    • 批次轉錄 (Batch Transcription):按處理的音訊分鐘數計費,這是最常見的計費方式。
    • 即時轉錄 (Real-time Transcription):按處理的音訊分鐘數計費,通常會略高於批次轉錄的費用。
  • Transcribe Medical (醫療版)
    • 針對醫療應用提供更高的準確性,費用通常高於標準轉錄,也是按音訊分鐘數計費。
  • 個人身份資訊 (PII) 編輯 (PII Redaction)
    • 如果你啟用了 PII 編輯功能,會根據處理的音訊分鐘數產生額外費用。
  • 自訂語言模型 (Custom Language Models, CLM)
    • 訓練費用:按訓練模型所用的時間(小時)計費。
    • 託管費用:一旦模型訓練完成並託管,會按模型託管的時間(小時)計費。
  • 自訂詞彙表 (Custom Vocabularies)
    • 通常不額外收費,或費用很低,因為它只是一個列表。

AWS 通常提供免費試用層 (Free Tier),讓你可以免費體驗 Amazon Transcribe 的部分功能(例如每月一定量的音訊轉錄)。

由於具體價格會因地區、你使用的功能類型(標準、醫療、即時)、以及音訊時長而有很大差異,並且價格通常是按「每分鐘」或「每小時」來報價,建議你查閱 AWS 官方網站的 Amazon Transcribe 定價頁面 (aws.amazon.com/transcribe/pricing/),並使用 AWS 定價計算器 來估算你的具體成本。


總而言之,Amazon Transcribe 讓開發者能夠輕鬆地將大量的語音內容轉換為可用的文字資料,為各種應用提供了新的可能性,從提升客戶服務到豐富媒體內容,再到智慧化生產力工具。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
4會員
222內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師
2025/06/10
Amazon Translate 是一種由 Amazon Web Services (AWS) 提供的神經網路機器翻譯服務。它使用先進的深度學習模型,可以提供高品質且即時的語言翻譯。 簡單來說,Amazon Translate 可以幫助您將文字從一種語言自動翻譯成另一種語言。它支援多種語言對,而且
2025/06/10
Amazon Translate 是一種由 Amazon Web Services (AWS) 提供的神經網路機器翻譯服務。它使用先進的深度學習模型,可以提供高品質且即時的語言翻譯。 簡單來說,Amazon Translate 可以幫助您將文字從一種語言自動翻譯成另一種語言。它支援多種語言對,而且
2025/06/10
Amazon Lex 是一種由 Amazon Web Services (AWS) 提供的服務,可以讓您使用語音或文字在應用程式中建立對話式介面(例如聊天機器人)。它採用了與 Amazon Alexa 相同的技術,包括自然語言理解 (Natural Language Understanding, N
2025/06/10
Amazon Lex 是一種由 Amazon Web Services (AWS) 提供的服務,可以讓您使用語音或文字在應用程式中建立對話式介面(例如聊天機器人)。它採用了與 Amazon Alexa 相同的技術,包括自然語言理解 (Natural Language Understanding, N
2025/06/10
Amazon Polly 是一種由 Amazon Web Services (AWS) 提供的雲端服務,它可以將文字轉換為逼真的語音。您可以使用 Amazon Polly 開發具有語音功能的應用程式和產品,以提高互動性和可存取性。 簡單來說,Amazon Polly 是一個文字轉語音 (Text-
2025/06/10
Amazon Polly 是一種由 Amazon Web Services (AWS) 提供的雲端服務,它可以將文字轉換為逼真的語音。您可以使用 Amazon Polly 開發具有語音功能的應用程式和產品,以提高互動性和可存取性。 簡單來說,Amazon Polly 是一個文字轉語音 (Text-
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
AnyText是一個由阿里巴巴推出的AI工具,它具有多語言支持、靈活的文字佈局、精確的文字位置控制等特點,並且包括與其他AI圖像生成工具的兼容性。本篇文章介紹了AnyText的特點、如何使用以及技術原理,並且與其他知名AI工具做了比較。最後,對AnyText未來的發展和應用做出展望。
Thumbnail
AnyText是一個由阿里巴巴推出的AI工具,它具有多語言支持、靈活的文字佈局、精確的文字位置控制等特點,並且包括與其他AI圖像生成工具的兼容性。本篇文章介紹了AnyText的特點、如何使用以及技術原理,並且與其他知名AI工具做了比較。最後,對AnyText未來的發展和應用做出展望。
Thumbnail
還記得我們之前介紹過「【Google Colab Python系列】 初探Whisper: 來一段Youtube影片進行語音辨識吧!」這套語音辨識引擎, 那為什麼我們又要教這一套? 因為我們也可以將whisper的模型轉換成onnx的格式, 輕鬆移植到各種平台, 且效能更佳。 語音辨識的熱門組件之
Thumbnail
還記得我們之前介紹過「【Google Colab Python系列】 初探Whisper: 來一段Youtube影片進行語音辨識吧!」這套語音辨識引擎, 那為什麼我們又要教這一套? 因為我們也可以將whisper的模型轉換成onnx的格式, 輕鬆移植到各種平台, 且效能更佳。 語音辨識的熱門組件之
Thumbnail
本文主要使用SpeechRecognition來做一個簡單的語音辨識,使用pyqt5介面呈現。 按下Start Recording,開始錄音,並顯示請開始說話。然後按鈕名改名Stop 在按下Stop Recording,稍等片刻後就會呈現出辨識結果​ 程式範例 import sys i
Thumbnail
本文主要使用SpeechRecognition來做一個簡單的語音辨識,使用pyqt5介面呈現。 按下Start Recording,開始錄音,並顯示請開始說話。然後按鈕名改名Stop 在按下Stop Recording,稍等片刻後就會呈現出辨識結果​ 程式範例 import sys i
Thumbnail
AIGC,全名是人工智能生成內容(AI-generated content),指的是使用人工智能技術自動生成的各種數字內容。這些內容可以包括文本、圖像、音樂、視頻、程式碼等等。AIGC利用自然語言處理(NLP)、計算機視覺、機器學習和深度學習等技術來創建和生成這些內容。
Thumbnail
AIGC,全名是人工智能生成內容(AI-generated content),指的是使用人工智能技術自動生成的各種數字內容。這些內容可以包括文本、圖像、音樂、視頻、程式碼等等。AIGC利用自然語言處理(NLP)、計算機視覺、機器學習和深度學習等技術來創建和生成這些內容。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  前陣子我花了一些時間學習 SageMaker 的相關使用,但除了 SageMaker外,AWS 中尚有大量的機器學習相關服務,剛好趁此機會好好的統整分類一下,後續也能作為選擇學習目標的依據。
Thumbnail
  前陣子我花了一些時間學習 SageMaker 的相關使用,但除了 SageMaker外,AWS 中尚有大量的機器學習相關服務,剛好趁此機會好好的統整分類一下,後續也能作為選擇學習目標的依據。
Thumbnail
免費文字轉語音(Free text to speech)免費的線上語音合成工具,使用微軟 AI 語音庫生成仿真人語音,支援 129 種語言,提供三百多種聲音,輸入文本即可線上聆聽和下載 MP3 檔案。
Thumbnail
免費文字轉語音(Free text to speech)免費的線上語音合成工具,使用微軟 AI 語音庫生成仿真人語音,支援 129 種語言,提供三百多種聲音,輸入文本即可線上聆聽和下載 MP3 檔案。
Thumbnail
之前有寫過一篇 《AI工具│透過AI整合的語音功能 Murf》,近期使用過之後,隨著ChatGPT與相關AI普及之後,新的自動生成網站與工具變得多元了起來。 大多會使用在影片製作中,若缺少的素材,或是想要呈現事件及詼諧感的時候,會加入片段人聲去做效果。 於是決定,統整一下自己最近常用的4個AI語
Thumbnail
之前有寫過一篇 《AI工具│透過AI整合的語音功能 Murf》,近期使用過之後,隨著ChatGPT與相關AI普及之後,新的自動生成網站與工具變得多元了起來。 大多會使用在影片製作中,若缺少的素材,或是想要呈現事件及詼諧感的時候,會加入片段人聲去做效果。 於是決定,統整一下自己最近常用的4個AI語
Thumbnail
本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案,以及將長音訊分割並轉寫的過程。透過範例演示,讀者可以學習如何將音訊轉寫為文字,提高工作效率。
Thumbnail
本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案,以及將長音訊分割並轉寫的過程。透過範例演示,讀者可以學習如何將音訊轉寫為文字,提高工作效率。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News