Amazon Polly

iPAS AI應用規劃師學習筆記

發佈於AWS AIF-C01

2025/08/08 更新2025/06/10 發佈閱讀 6 分鐘

Amazon Polly 是一項 雲端服務，它能將文字轉換為逼真的人聲語音。這項服務使用深度學習技術來合成語音，聽起來非常自然，就像是真人說話一樣。

Amazon Polly 的核心概念與功能

Polly 的主要目標是讓文字內容能夠被「聽見」，為使用者提供更好的體驗，或將應用程式轉變為會說話的應用程式。

文字轉語音 (Text-to-Speech, TTS)：
- 這是 Polly 的核心功能。你只需要提供文字，Polly 就能生成高品質的音訊檔案。
多樣的語音選擇：
- 多種語言：Polly 支援多種語言，讓你能夠為全球受眾創造語音內容。
- 多種聲音：每種語言通常都有多個不同的聲音（男聲、女聲），你可以根據需求選擇最適合的語音。
- 新神經語音 (Neural Text-to-Speech, NTTS)：Polly 提供「神經語音」，這些語音使用機器學習技術，聽起來比傳統的標準語音更自然、更富有表現力。
- 自訂品牌語音 (Custom Brand Voices)：如果你需要一個完全獨特且與你的品牌形象相符的聲音，Polly 也提供建立自訂品牌語音的選項（這需要更多的資料和客製化開發）。
語音合成標記語言 (SSML - Speech Synthesis Markup Language)：
- SSML 是一個強大的工具，讓你可以對合成語音的發音、語速、音調、音量等屬性進行更細緻的控制。
- 例如，你可以使用 SSML 來：
- - 插入停頓
  - 強調特定單詞或短語
  - 調整說話風格（例如：新聞播報、對話）
  - 控制數字、縮寫、日期和時間的讀法
  - 播放音樂或音效
  - 插入呼吸聲
發音詞典 (Lexicons)：
- 某些特定詞彙、專有名詞或品牌名稱可能會有特殊的發音。你可以建立自訂的發音詞典，教 Polly 如何正確地發音這些詞彙。
音訊格式選擇：
- Polly 支援多種音訊輸出格式，如 MP3、Ogg Vorbis 和 PCM，方便你整合到不同的應用程式和設備中。

Amazon Polly 的應用場景

Amazon Polly 廣泛應用於各種需要語音輸出的場景：

內容創作：
- 有聲書與電子學習：將文字內容快速轉換為有聲書或課程語音。
- 新聞播報：為新聞網站或應用程式自動生成語音新聞播報。
- 部落格與文章：讓網站訪客可以選擇「聽」文章而不是閱讀，提升用戶體驗。
客戶服務與互動：
- 智慧客服中心：與 Amazon Connect 等服務整合，為自動語音應答系統 (IVR) 提供自然語音。
- 聊天機器人：與 Amazon Lex 等服務結合，讓聊天機器人能夠以語音與使用者互動。
- 語音助理：開發具備語音回應功能的應用程式。
行動應用程式與 IoT 設備：
- 為導航應用程式提供語音指示。
- 為智慧家庭設備提供語音通知或回應。
- 視障人士輔助工具，將數位內容轉換為語音。
遊戲與動畫：
- 為遊戲中的角色或旁白生成語音。

Amazon Polly 的優勢

高品質與自然度：特別是神經語音，能夠提供非常流暢且富有表現力的語音，大幅提升使用者體驗。
低延遲：可以快速將文字轉換為語音，適合即時應用。
大規模擴展：作為 AWS 服務，Polly 具有高度擴展性，能夠處理大量的語音合成請求。
成本效益：按實際使用的字符數計費，無需前期投入。
易於整合：透過簡單的 API 即可輕鬆整合到各種應用程式中。
靈活控制：SSML 和發音詞典提供了高度的語音客製化能力。

Amazon Polly 的計費方式

Amazon Polly 的計費是按使用量付費 (pay-as-you-go)，主要根據：

合成的字符數：這是主要的計費依據。你提供給 Polly 轉換為語音的文字字符數。
- 標準語音 (Standard Voices)：每百萬字符的費用較低。
- 神經語音 (Neural Voices, NTTS)：每百萬字符的費用會較高，因為它們提供更自然、更逼真的語音。
長語音合成 (Long-form Synthesis)：如果你需要合成非常長的音訊檔案（通常超過一定長度），可能會採用不同的計費模式。
自訂品牌語音 (Custom Brand Voices)：建立和使用自訂品牌語音的費用會更高，通常包含一次性的建立費用和後續的使用費用。

AWS 提供免費試用層 (Free Tier)，讓你可以免費體驗 Polly 的部分功能。由於具體價格會因地區、語音類型（標準或神經）和使用量而有很大差異，建議你查閱 AWS 官方網站的 Amazon Polly 定價頁面 (aws.amazon.com/polly/pricing/)，以獲取最準確的資訊和使用計價器來估算成本。

總之，Amazon Polly 讓開發者能夠輕鬆地為其應用程式、網站和設備添加逼真的人聲語音功能，極大地豐富了使用者體驗。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記AWS AIF-C01

留言