ElevenLabs 於2025年6月3日推出其最新模型 Eleven v3(Alpha版),與此同時,ChatGPT 也於2025年6月7日針對付費用戶升級進階語音模式(Advanced Voice Mode),均展現了AI語音在自然度、情感表達及多語言應用上的巨大進步。TN科技筆記將於本篇文章為各位介紹這兩家公司在 AI 語音上的更新特色,幫助讀者了解 AI 語音的最新應用趨勢!
ElevenLabs Eleven v3 (alpha) :情感豐富的多語言 AI 語音
ElevenLabs 這款文字轉語音(Text-to-Speech)模型 Eleven v3 (alpha) 透過新增的音頻標籤功能,如「[竊竊私語]」、「[興奮]」、「[笑聲]」及「[嘆息]」:
“[whispers] Something’s coming… [sighs] I can feel it.”讓用戶可精準控制語音的情感變化,甚至在單句中實現語氣轉換。此外,Eleven v3 (alpha) 推出文字對話API(Text to Dialogue API),支援多角色對話模擬,模擬真實交談中的語氣重疊與情感細膩度,特別適用於有聲書、遊戲配音及多語言故事創作。
在語言支援方面,Eleven v3 從原本的33種語言擴展至超過70種,新增如印地語、泰米爾語及孟加拉語等,顯著提升其全球化應用潛力。該模型目前已在elevenlabs.io上線,API 則即將推出。對於需要預渲染的創意內容,如角色驅動的故事或專業旁白,v3 表現尤為出色,但即時應用仍以 v2.5 Turbo 及 Flash 模型為主,v3 即時版本仍在開發中。

Introducing Eleven v3 (alpha) — Our Most Expressive Text to Speech Model
ChatGPT 進階語音模式:更自然的對話與即時翻譯
OpenAI 近期則針對 ChatGPT 付費用戶升級進階語音模式,進一步改進語音的自然度與語調表現。更新後的語音模式在語調、停頓及情感表達(如同理心、諷刺等)上更加細膩,使對話更接近真人互動。其中特別值得一提的是,其新增的即時語言翻譯功能,用戶只需啟動語音模式並指定語言,ChatGPT 即可在對話中持續翻譯。例如,在巴西餐廳點餐時,語音模式能將英文指令翻譯成葡萄牙語,並將服務員的回應翻譯回英文,大幅提升跨語言溝通的便利性。
該功能適用於所有付費用戶,無需額外設定即可透過訊息輸入框中的語音圖標啟用。然而,OpenAI 也指出,部分語音選項可能出現音質不穩或語調變化的問題,偶爾甚至會產生類似廣告或背景音樂的「幻聽」現象。這些問題正在積極修復中,預計未來將進一步提升語音穩定性。
ElevenLabs v3 與 ChatGPT 進階語音模式的推出,可見 AI語音技術在情感表達、多語言支援及即時應用上的持續突破。無論是創作者還是企業用戶,這些工具都提供了前所未有的可能性,讓我們一起期待更多不同的 AI 語音應用出現吧!
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>請我喝一杯咖啡