OpenAI推出高级语音模式 部分Plus用户将先行试用

更新於 2024/08/01閱讀時間約 2 分鐘

7月31日,OpenAI在其官方媒体账号上表示,开始向一小部分ChatGPT Plus用户推出高级语音模式。

当前,实时响应和可打断对话是公认的语音助手技术难点。而据OpenAI介绍,其推出的高级语音模式可以提供更自然的实时对话,允许用户随时打断,并能感知和响应用户的情绪。

此前,ChatGPT的语音对话使用了三个独立的模型:一个用于将用户的语音转换为文本,GPT-4理解和处理文本的提示,然后再由第三个模型将文本转换为语音。但GPT-4o是单一多模态模型,能够在没有辅助模型帮助的情况下处理这些任务,从而显著降低对话的延迟。

OpenAI还声称GPT-4o可以感知用户声音中的情绪语调,包括悲伤、兴奋或歌唱。

OpenAI表示,虽然最开始只有一小部分用户可以参与高级语音模式的测试,但该公司计划逐渐扩大测试范围,并计划在秋季让所有ChatGPT Plus用户都能使用。

ChatGPT从去年9月就开始支持语音对话,并于今年5月展示了更高级的版本。不过5月份展示的这个版本曾引发一个版权风波。

今年5月,美国著名演员斯嘉丽·约翰逊(Scarlett Johansson)表示,ChatGPT的语音模式中有一款名为Sky的声音与她的声音出奇相似,她对此感到震惊和愤怒。

而且,根据斯嘉丽的说法,去年OpenAI的首席执行官山姆·阿尔特曼(Sam Altman)曾联系她为ChatGPT配音,但她因个人原因拒绝了。

在斯嘉丽的法律代表联系OpenAI之后,OpenAI表示,“出于对约翰逊女士的尊重,我们已暂停在我们的产品中使用Sky的声音。”

或许是担心类似的版权风波再次上演,OpenAI在宣布推出高级语音模式的帖子下面补充道:“我们用100多名外部红队人员测试了GPT-4o的语音功能,涉及45种语言。为了保护个人隐私,我们对模型进行了训练,使其只能以预设的四种声音说话。”

高级语音模式将仅限于ChatGPT的四种预设声音——Juniper、Breeze、Cove和Ember,这些声音是与付费配音演员合作制作的。

OpenAI还表示,其已经构建了系统来阻止ChatGPT输出除上述四种声音之外的声音,并实施了防护措施来屏蔽对暴力或版权内容的请求。

#OpenAI##AI##ChatGPT#

    avatar-img
    1會員
    180內容數
    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    你可能也想看
    Google News 追蹤
    Thumbnail
    *合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
    Thumbnail
    *合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科