OpenAI春季发布会来袭!新模型GPT-4o音频响应速度媲美人类

閱讀時間約 4 分鐘

当地时间周一,OpenAI的春季发布会如期拉开序幕。正如外界所预料,OpenAI又带来新的“王炸”产品。

GPT-4o惊艳亮相

此次发布会的重点就是推出OpenAI的新旗舰模型GPT-4o。

据OpenAI的介绍,GPT-4o里面的“o”代表“omni”,OpenAI将其称为“是迈向更自然的人机交互的一步”。GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

其中,最让人惊艳的是,GPT-4o可以在短短的232毫秒的时间内对输入的音频作出响应,平均为320毫秒,这个响应速度已经接近人类的响应时间!

此前,用户也可以用语音模式与ChatGPT对话,但由于GPT-3.5和GPT-4支持的 ChatGPT是通过将音频转为文字并输出文字答复,再将文字答复转为答复音频,这样一通操作下来,不仅平均延迟时间较长(GPT-3.5需要2.8秒, GPT-4需要5.4秒),而且也会漏掉一些信息。比如,之前模型就无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

而最新推出的GPT-4o就解决了上述问题,所有输入和输出都由同一神经网络处理。

我们也可以从一些指标看到GPT-4o的音频处理能力有多出色。

据传统基准测试中,与Whisper-v3相比,GPT-4o在音频ASR性能方面显著提高了所有语言的语音识别性能,尤其是资源较少的语言。Whisper-v3是去年OpenAI推出的语音识别模型。

在音频翻译性能测试方面,GPT-4o为语音翻译树立了新的标杆,在MLS基准测试中优于Whisper-v3。

除了在音频上处理更为出色,GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相近,在非英语文本上的性能显着提高。

在文本评价方面,GPT-4o几乎碾压包括Claude 3 Opus、Gemini Pro 1.5、Llama 3 400B在内的一众热门模型。

在视觉理解评估方面,GPT-4o也取得了领先的性能。

在介绍GPT-4o的新闻稿中,OpenAI还强调了模型安全性。公司表示,GPT-4o通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。OpenAI还创建了新的安全系统,为语音输出提供防护。

在接下来的数周里,OpenAI将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。

在介绍完GPT-4o之后,OpenAI还扔出一个重磅消息——GPT-4o的文本和图像功能将在发布会当天开始在ChatGPT中免费推出!这意味着,不管是免费用户还是付费用户,都可以尝鲜。此举也让OpenAI这个公司名变得名副其实了起来。

不过,OpenAI提到,免费用户会有使用限制,当达到限制时,ChatGPT将自动切换到GPT-3.5。Plus用户的消息限制将比免费用户高出5倍,而团队和企业用户的限制会更高。

开发人员现在还可以在API中访问GPT-4o作为文本和视觉模型。与GPT-4 Turbo相比,GPT-4o速度提高2倍,价格降低一半,速率限制提高5倍。OpenAI称,计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。

为ChatGPT免费用户提供更多工具

在此次春季发布会上,OpenAI还宣布将向ChatGPT免费用户推出更多智能且先进的工具。

据介绍,使用GPT-4o时,ChatGPT免费用户现在可以访问以下功能:获得GPT-4级的智能体验;从模型和网络获取响应;分析数据并创建图表;聊天讨论你拍摄的照片;上传文件以协助总结、撰写或分析;发现并使用GPT和GPT Store;使用Memory打造更有帮助的体验。

此外,对于所有用户,OpenAI还推出了适用于macOS的新ChatGPT桌面应用程序,该应用程序旨在无缝集成到计算机上执行的任何操作。通过简单的键盘快捷键(Option + Space),用户可以立即向ChatGPT提问。用户还可以直接在应用程序中截图并进行讨论。


Play Video


用户也可以直接在计算机上与ChatGPT进行语音对话,只需要点击桌面应用程序右下角的耳机图标就可以开始。

ChatGPT桌面应用程序将率先向Plus用户开放,并将在未来几周内大规模铺开。而该应用程序的Windows版本,可能要到今年晚些时候才会推出。

#OpenAI##ChatGPT##AI#

    0會員
    98內容數
    留言0
    查看全部
    發表第一個留言支持創作者!
    你可能也想看
    OpenAI 稱伊隆馬斯克的訴訟主張「毫無邏輯」OpenAI 針對伊隆馬斯克提出的訴訟進行了反擊,認為他的主張在事實面前「令人費解且經常毫無邏輯可言」。
    avatar
    熊熊的翻譯日常
    2024-03-14
    OpenAI高層反駁馬斯克的指控OpenAI高層反駁了埃隆·馬斯克(Elon Musk)在週四提起的一場官司中的指控,聲稱特斯拉首席執行官表達了對不再是這家人工智能初創公司的一部分感到遺憾。該訴訟深入探討了馬斯克的貢獻,稱他在2016年至2020年9月間向OpenAI提供了超過4400萬美元,並在公司的早期里程碑中發揮了關鍵作用。
    Thumbnail
    avatar
    Samuel
    2024-03-04
    OpenAI 發展歷史|從 GPT-1 到 ChatGPT-4 的演變OpenAI成立於2015年,旨在以非盈利方式促進AI發展,並避免潛在危害。從GPT-1到GPT-4的發展過程展現了AI無監督學習及多任務學習的潛力。這篇文章回顧了OpenAI在自然語言處理方面的歷程與技術演進,並介紹了各個模型樣本和能力的提升。
    Thumbnail
    avatar
    Jasmine
    2024-03-01
    OpenAI Sora 將改變影視創作產業?AI 模型是否會被大公司壟斷?2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
    Thumbnail
    avatar
    Jasmine
    2024-02-21
    OpenAI 正在開发兩種類型的 AI 助手,這些軟體將協助完成原本由人類執行的任務,而無須人類密切監督。其中一種類型的OpenAI 正在開发兩種類型的 AI 助手,這些軟體將協助完成原本由人類執行的任務,而無須人類密切監督。其中一種類型的 AI 代理人可以透過接管使用者的設備來自動化某些複雜任務,例如 ChatGPT 助理將數據從文檔轉移到電子表格或填寫費用報告並將它們輸入到會計軟體中。此類 AI 助理將需要使用者
    Thumbnail
    avatar
    沈重宗
    2024-02-20
    OpenAI Sora:一個能夠生成超逼真影片的人工智慧模型今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
    Thumbnail
    avatar
    悠緣船帆
    2024-02-19
    OpenAI的Sora為什麼重要?OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
    Thumbnail
    avatar
    技術PM路易斯
    2024-02-18
    OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像 OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
    Thumbnail
    avatar
    沈重宗
    2024-02-17
    OpenAI Sora:文生成影音的新時代2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
    Thumbnail
    avatar
    三十好幾
    2024-02-16
    OpenAI 鬧劇(發布於臉書11/22/2024) 這幾天非常火紅的矽谷鬧劇,不免俗地要來了解一下。 OpenAI 的創始人Sam Altman 在上禮拜五,被自己創建的公司無預警的辭退。 Altman 從零創建了OpenAI,如今這家公司的市值已近900億美元。這個被譽為是當代AI的發言人,很多人認為他的地
    avatar
    5+0
    2024-02-15