哈囉,我是萊丘!歡迎回來
今天要跟大家分享OpenAI最新發布的三款語音模型,以及如何透過新網站OpenAI.fm免費體驗這些令人驚豔的功能!
OpenAI語音新模型介紹
2024年3月21日,OpenAI正式推出了基於全新GPT-4O架構的三款語音模型:- GPT-4O Transcribe:高效語音轉文字模型。
- GPT-4O Mini Transcribe:輕量版語音轉文字模型,適合較簡單應用。
- GPT-4O Mini TTS:文字轉語音(Text-to-Speech)模型,允許用戶更靈活地控制語音表現方式。
這些新模型到底有多強?根據OpenAI的官方數據,在多項測試中,GPT-4O Transcribe模型表現優於過去備受好評的Whisper模型,特別是在英文語音辨識上,其錯誤率僅達2.46%,不僅精確度極高,還支援超過100種語言,甚至能在噪音環境及多種口音中保持穩定辨識效果。

gpt-4o-transcribe 語音辨識錯誤率較上一版的 Whisper 模型進步。
GPT-4O Transcribe模型實用功能
GPT-4O Transcribe的特色在於即時串流處理能力,透過這個技術,你可以像直播一樣持續輸入音頻,它將即時產生文字回應,讓人機對話更為流暢自然。
例如當你詢問:「嘿,我最後一筆訂單在哪?」AI會立刻回覆你的訂單詳細資訊,甚至能進一步回答訂單編號等具體問題,體驗上更加直觀且自然。
GPT-4O Mini TTS:可調整語音表現
這次另一個讓人驚艷的地方是GPT-4O Mini TTS模型,它能讓用戶自由地引導語音的表現方式。你不僅能指定要說什麼內容,還能決定語調、情境與風格。
透過官方提供的體驗網站OpenAI.fm,你可以自由選擇不同聲音(Voice)、情境氛圍(Vibe)與文本內容(Script)來快速生成語音。

例如,我嘗試使用「大廚」的語音風格朗讀一段義大利料理介紹,聲音自然到讓我立刻聯想到網路上最近很紅的模仿川普的Tony,那種義大利口音十分生動且有趣!
此外,我也測試了中文文本,雖然目前中文語音生成的效果還有待提升,但仍可聽出明顯進步的潛力,整體辨識度和流暢度已經達到相當高的水準。
免費且可下載,輕鬆融入各種創作!
最重要的是,OpenAI.fm目前完全免費!過去使用ChatGPT語音功能時,並不提供下載選項,但現在你可以直接下載生成的音檔,無論是要放入短影音或是用於簡報、影片旁白,都十分方便!
小小建議與未來期待
儘管GPT-4O Mini TTS在中文表現上還有進步空間,但它在英文及其他語言中的表現確實驚人。不僅不同角色之間的音調切換自如,口音表現也相當逼真,未來發展潛力無窮。
如果喜歡這篇文章,歡迎留言鼓勵;也可以按下小愛心、訂閱我的文章。
YouTube頻道:萊丘Laichu_TV