大模型也掀起价格战?OpenAI推出低价小模型GPT-4o mini

閱讀時間約 3 分鐘

7月18日,OpenAI宣布推出GPT-4o mini,一个极具成本效益的小型模型。

小而优

OpenAI把GPT-4o mini描述为,一个具有卓越文本智能和多模态推理能力的小模型。

据OpenAI介绍,GPT-4o mini在MMLU上的得分为82%,目前在LMSYS排行榜上的聊天偏好方面优于GPT-4。

GPT-4o mini在文本智能和多模态推理方面的学术基准测试中超越了GPT-3.5 Turbo和其他小型模型,并且支持的语言范围与GPT-4o相同。

GPT-4o mini在函数调用方面也表现出色,可以使开发人员构建获取数据或使用外部系统采取行动的应用程序。此外,与GPT-3.5 Turbo相比,GPT-4o mini的长上下文性能有所提高。

GPT-4o mini已经在几个关键基准上进行了评估。

推理任务:GPT-4o mini在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准MMLU上的得分为82.0%,而Gemini Flash为77.9%,Claude Haiku为73.8%。

数学和编码能力:GPT-4o mini在数学推理和编码任务中的表现优于市场上之前的小型模型。在测量数学推理的MGSM上,GPT-4o mini得分为 87.0%,而Gemini Flash得分为75.5%,Claude Haiku得分为71.7%。在测量编码性能的HumanEval上,GPT-4o mini得分为87.2%,而Gemini Flash得分为71.5%,Claude Haiku得分为75.9%。

多模态推理:GPT-4o mini在多模态推理评估MMMU中也表现出色,得分为59.4%,而Gemini Flash为56.1%,Claude Haiku为50.2%。

OpenAI还提到,公司在与Ramp等公司合作时发现,在执行从收据文件中提取结构化数据或在提供线程历史记录时生成高质量电子邮件响应等任务时,GPT-4o mini的表现明显优于GPT-3.5 Turbo。

更低的成本

尽管性能十分优秀,但这不是GPT-4o mini最引人注目的地方,其最大的亮点是价格实现了大幅下降。

OpenAI表示,开发人员使用GPT-4o mini时,每100万个输入tokens需支付15美分,每100万个输出tokens需支付60美分,这一定价比之前的Frontier型号便宜一个数量级,比GPT-3.5 Turbo便宜60%以上。

该公司表示,成本的降低将有助于开发受活动量影响的应用程序。

GPT-4o mini将凭借低成本和低延迟来实现多项任务,例如链接或并行化多个模型调用(如调用多个API)、将大量上下文传递给模型(如完整的代码库或对话历史记录),或通过快速、实时的文本响应与客户互动(如客户支持聊天机器人)。

目前,GPT-4o mini的应用程序接口支持文本和视觉,未来还将支持文本、图像、视频和音频输入和输出。该模型的上下文窗口可容纳128K个输入token,每个请求最多支持16K输出token,并且拥有截至2023年10月的知识。由于改进了与GPT-4o共享的tokenizer,现在处理非英语文本更具成本效益。

在安全性方面,GPT-4o mini内置了与GPT-4o相同的安全缓解措施。据了解,有超过70位来自社会心理学和错误信息等领域的外部专家对GPT-4o进行了测试,以识别潜在风险,OpenAI已经解决了这些风险。OpenAI称,团队还将致力于利用研究得出的新技术来提高GPT-4o mini的安全性。

OpenAI表示,GPT-4o mini现在已向免费用户和付费ChatGPT Plus和Team用户推出,并将于下周向企业客户提供。GPT-4o mini将取代ChatGPT中的旧型号GPT-3.5 Turbo。

    1會員
    148內容數
    留言0
    查看全部
    發表第一個留言支持創作者!
    你可能也想看
    Thumbnail
    「設計不僅僅是外觀和感覺。設計是其運作的方式。」 — Steve Jobs 身為一個獨立文案,許多人會以為我們的生活只需要面對電腦,從無到有,用精巧的文字填滿空白的螢幕,呈現心目中獨具風格的作品。 ——有的時候可以如此,但其實這是我們夢寐以求的偶發日常。 更多的時候,白天的工作時間總被各種繁雜
    Thumbnail
    台股、美股近期明顯回檔,市場敘事發生改變,壞消息一樁接一樁出現,下一步該怎麼走呢?本文將探討近期的宏觀經濟事件,並分享個人的操作思考。
    Thumbnail
    「設計不僅僅是外觀和感覺。設計是其運作的方式。」 — Steve Jobs 身為一個獨立文案,許多人會以為我們的生活只需要面對電腦,從無到有,用精巧的文字填滿空白的螢幕,呈現心目中獨具風格的作品。 ——有的時候可以如此,但其實這是我們夢寐以求的偶發日常。 更多的時候,白天的工作時間總被各種繁雜
    Thumbnail
    台股、美股近期明顯回檔,市場敘事發生改變,壞消息一樁接一樁出現,下一步該怎麼走呢?本文將探討近期的宏觀經濟事件,並分享個人的操作思考。