Amazon Polly

更新 發佈閱讀 6 分鐘

Amazon Polly 是一項 雲端服務,它能將文字轉換為逼真的人聲語音。這項服務使用深度學習技術來合成語音,聽起來非常自然,就像是真人說話一樣。


Amazon Polly 的核心概念與功能

Polly 的主要目標是讓文字內容能夠被「聽見」,為使用者提供更好的體驗,或將應用程式轉變為會說話的應用程式。

  1. 文字轉語音 (Text-to-Speech, TTS)
    • 這是 Polly 的核心功能。你只需要提供文字,Polly 就能生成高品質的音訊檔案。
  2. 多樣的語音選擇
    • 多種語言:Polly 支援多種語言,讓你能夠為全球受眾創造語音內容。
    • 多種聲音:每種語言通常都有多個不同的聲音(男聲、女聲),你可以根據需求選擇最適合的語音。
    • 新神經語音 (Neural Text-to-Speech, NTTS):Polly 提供「神經語音」,這些語音使用機器學習技術,聽起來比傳統的標準語音更自然、更富有表現力。
    • 自訂品牌語音 (Custom Brand Voices):如果你需要一個完全獨特且與你的品牌形象相符的聲音,Polly 也提供建立自訂品牌語音的選項(這需要更多的資料和客製化開發)。
  3. 語音合成標記語言 (SSML - Speech Synthesis Markup Language)
    • SSML 是一個強大的工具,讓你可以對合成語音的發音、語速、音調、音量等屬性進行更細緻的控制。
    • 例如,你可以使用 SSML 來:
      • 插入停頓
      • 強調特定單詞或短語
      • 調整說話風格(例如:新聞播報、對話)
      • 控制數字、縮寫、日期和時間的讀法
      • 播放音樂或音效
      • 插入呼吸聲
  4. 發音詞典 (Lexicons)
    • 某些特定詞彙、專有名詞或品牌名稱可能會有特殊的發音。你可以建立自訂的發音詞典,教 Polly 如何正確地發音這些詞彙。
  5. 音訊格式選擇
    • Polly 支援多種音訊輸出格式,如 MP3、Ogg Vorbis 和 PCM,方便你整合到不同的應用程式和設備中。

Amazon Polly 的應用場景

Amazon Polly 廣泛應用於各種需要語音輸出的場景:

  • 內容創作
    • 有聲書與電子學習:將文字內容快速轉換為有聲書或課程語音。
    • 新聞播報:為新聞網站或應用程式自動生成語音新聞播報。
    • 部落格與文章:讓網站訪客可以選擇「聽」文章而不是閱讀,提升用戶體驗。
  • 客戶服務與互動
    • 智慧客服中心:與 Amazon Connect 等服務整合,為自動語音應答系統 (IVR) 提供自然語音。
    • 聊天機器人:與 Amazon Lex 等服務結合,讓聊天機器人能夠以語音與使用者互動。
    • 語音助理:開發具備語音回應功能的應用程式。
  • 行動應用程式與 IoT 設備
    • 為導航應用程式提供語音指示。
    • 為智慧家庭設備提供語音通知或回應。
    • 視障人士輔助工具,將數位內容轉換為語音。
  • 遊戲與動畫
    • 為遊戲中的角色或旁白生成語音。

Amazon Polly 的優勢

  • 高品質與自然度:特別是神經語音,能夠提供非常流暢且富有表現力的語音,大幅提升使用者體驗。
  • 低延遲:可以快速將文字轉換為語音,適合即時應用。
  • 大規模擴展:作為 AWS 服務,Polly 具有高度擴展性,能夠處理大量的語音合成請求。
  • 成本效益:按實際使用的字符數計費,無需前期投入。
  • 易於整合:透過簡單的 API 即可輕鬆整合到各種應用程式中。
  • 靈活控制:SSML 和發音詞典提供了高度的語音客製化能力。

Amazon Polly 的計費方式

Amazon Polly 的計費是按使用量付費 (pay-as-you-go),主要根據:

  • 合成的字符數:這是主要的計費依據。你提供給 Polly 轉換為語音的文字字符數。
    • 標準語音 (Standard Voices):每百萬字符的費用較低。
    • 神經語音 (Neural Voices, NTTS):每百萬字符的費用會較高,因為它們提供更自然、更逼真的語音。
  • 長語音合成 (Long-form Synthesis):如果你需要合成非常長的音訊檔案(通常超過一定長度),可能會採用不同的計費模式。
  • 自訂品牌語音 (Custom Brand Voices):建立和使用自訂品牌語音的費用會更高,通常包含一次性的建立費用和後續的使用費用。

AWS 提供免費試用層 (Free Tier),讓你可以免費體驗 Polly 的部分功能。由於具體價格會因地區、語音類型(標準或神經)和使用量而有很大差異,建議你查閱 AWS 官方網站的 Amazon Polly 定價頁面 (aws.amazon.com/polly/pricing/),以獲取最準確的資訊和使用計價器來估算成本。


總之,Amazon Polly 讓開發者能夠輕鬆地為其應用程式、網站和設備添加逼真的人聲語音功能,極大地豐富了使用者體驗。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
21會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/06/10
Amazon Comprehend 是 Amazon Web Services (AWS) 提供的一種全受管自然語言處理 (NLP) 服務。它使用機器學習來從文本中提取見解,使應用程式能夠理解文件中的關鍵詞、情感、語言和其他重要元素。 簡單來說,Amazon Comprehend 可以幫助您理解文
2025/06/10
Amazon Comprehend 是 Amazon Web Services (AWS) 提供的一種全受管自然語言處理 (NLP) 服務。它使用機器學習來從文本中提取見解,使應用程式能夠理解文件中的關鍵詞、情感、語言和其他重要元素。 簡單來說,Amazon Comprehend 可以幫助您理解文
2025/06/10
Amazon Rekognition 是一種由 Amazon Web Services (AWS) 提供的雲端影像和影片分析服務。它使用深度學習技術,讓您可以輕鬆地為您的應用程式添加先進的電腦視覺功能,而無需具備任何機器學習的專業知識。 簡單來說,Amazon Rekognition 可以幫助您的
2025/06/10
Amazon Rekognition 是一種由 Amazon Web Services (AWS) 提供的雲端影像和影片分析服務。它使用深度學習技術,讓您可以輕鬆地為您的應用程式添加先進的電腦視覺功能,而無需具備任何機器學習的專業知識。 簡單來說,Amazon Rekognition 可以幫助您的
2025/06/10
Amazon Foundation Models (基礎模型)是一種大型的機器學習模型,經過了海量資料的訓練,可以用於執行各種不同的任務,例如文字生成、翻譯、問答、程式碼生成等等。它們之所以被稱為「基礎」模型,是因為它們可以作為許多下游任務的基礎,只需要針對特定任務進行少量的調整(稱為微調)即可。
2025/06/10
Amazon Foundation Models (基礎模型)是一種大型的機器學習模型,經過了海量資料的訓練,可以用於執行各種不同的任務,例如文字生成、翻譯、問答、程式碼生成等等。它們之所以被稱為「基礎」模型,是因為它們可以作為許多下游任務的基礎,只需要針對特定任務進行少量的調整(稱為微調)即可。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改,讓你輕鬆將語音轉換成文字。
Thumbnail
了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改,讓你輕鬆將語音轉換成文字。
Thumbnail
PopPop AI 推出的免費線上音效產生器可以將文字轉換為各種聲音,包括自然、人類、樂器、環境和特殊效果等。支援多種語言,使用者可以輸入中文描述創建音效,並可直接播放聆聽和下載音訊。
Thumbnail
PopPop AI 推出的免費線上音效產生器可以將文字轉換為各種聲音,包括自然、人類、樂器、環境和特殊效果等。支援多種語言,使用者可以輸入中文描述創建音效,並可直接播放聆聽和下載音訊。
Thumbnail
AnyText是一個由阿里巴巴推出的AI工具,它具有多語言支持、靈活的文字佈局、精確的文字位置控制等特點,並且包括與其他AI圖像生成工具的兼容性。本篇文章介紹了AnyText的特點、如何使用以及技術原理,並且與其他知名AI工具做了比較。最後,對AnyText未來的發展和應用做出展望。
Thumbnail
AnyText是一個由阿里巴巴推出的AI工具,它具有多語言支持、靈活的文字佈局、精確的文字位置控制等特點,並且包括與其他AI圖像生成工具的兼容性。本篇文章介紹了AnyText的特點、如何使用以及技術原理,並且與其他知名AI工具做了比較。最後,對AnyText未來的發展和應用做出展望。
Thumbnail
還記得我們之前介紹過「【Google Colab Python系列】 初探Whisper: 來一段Youtube影片進行語音辨識吧!」這套語音辨識引擎, 那為什麼我們又要教這一套? 因為我們也可以將whisper的模型轉換成onnx的格式, 輕鬆移植到各種平台, 且效能更佳。 語音辨識的熱門組件之
Thumbnail
還記得我們之前介紹過「【Google Colab Python系列】 初探Whisper: 來一段Youtube影片進行語音辨識吧!」這套語音辨識引擎, 那為什麼我們又要教這一套? 因為我們也可以將whisper的模型轉換成onnx的格式, 輕鬆移植到各種平台, 且效能更佳。 語音辨識的熱門組件之
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  前陣子我花了一些時間學習 SageMaker 的相關使用,但除了 SageMaker外,AWS 中尚有大量的機器學習相關服務,剛好趁此機會好好的統整分類一下,後續也能作為選擇學習目標的依據。
Thumbnail
  前陣子我花了一些時間學習 SageMaker 的相關使用,但除了 SageMaker外,AWS 中尚有大量的機器學習相關服務,剛好趁此機會好好的統整分類一下,後續也能作為選擇學習目標的依據。
Thumbnail
免費文字轉語音(Free text to speech)免費的線上語音合成工具,使用微軟 AI 語音庫生成仿真人語音,支援 129 種語言,提供三百多種聲音,輸入文本即可線上聆聽和下載 MP3 檔案。
Thumbnail
免費文字轉語音(Free text to speech)免費的線上語音合成工具,使用微軟 AI 語音庫生成仿真人語音,支援 129 種語言,提供三百多種聲音,輸入文本即可線上聆聽和下載 MP3 檔案。
Thumbnail
之前有寫過一篇 《AI工具│透過AI整合的語音功能 Murf》,近期使用過之後,隨著ChatGPT與相關AI普及之後,新的自動生成網站與工具變得多元了起來。 大多會使用在影片製作中,若缺少的素材,或是想要呈現事件及詼諧感的時候,會加入片段人聲去做效果。 於是決定,統整一下自己最近常用的4個AI語
Thumbnail
之前有寫過一篇 《AI工具│透過AI整合的語音功能 Murf》,近期使用過之後,隨著ChatGPT與相關AI普及之後,新的自動生成網站與工具變得多元了起來。 大多會使用在影片製作中,若缺少的素材,或是想要呈現事件及詼諧感的時候,會加入片段人聲去做效果。 於是決定,統整一下自己最近常用的4個AI語
Thumbnail
本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案,以及將長音訊分割並轉寫的過程。透過範例演示,讀者可以學習如何將音訊轉寫為文字,提高工作效率。
Thumbnail
本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案,以及將長音訊分割並轉寫的過程。透過範例演示,讀者可以學習如何將音訊轉寫為文字,提高工作效率。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News