9月12日,OpenAI宣布将推出一系列用于解决难题的全新推理模型,该系列的第一个模型名为OpenAI o1,其预览版即日起开始使用。
OpenAI表示,与之前推出模型相比,o1模型可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题。
“这些模型花更多时间思考问题,然后再做出反应,就像人类一样。”OpenAI介绍道,“通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。”
o1模型有多厉害呢,该模型在编程能力比赛Codeforces中拿到89%百分位的成绩,在2024美国数学邀请赛(American Invitational Mathematics Examinatio,AIME) 预选赛中获得83.3%的准确率,跻身美国前500名学生之列。
相比之下,GPT-4o在Codeforces仅拿到11%百分位的成绩,在AIME中的准确率只有13.4%。
此外,在一个研究生级别的谷歌问答基准测试——GPQA(Grade School Physics Question Answering)中,o1模型的表现也十分惊人。GPQA是一个具有挑战性的数据集,包含数百道生物学、物理学和化学领域专家编写的多项选择题。
通常来说,在相应领域拥有或正在攻读博士学位的专家在GPQA的准确率在70%上下,而o1模型在该测试中达到了78%的准确率,也就是说,o1模型已经达到人类博士生的水平。
除了上述这些高难度的测试,在一些广泛的基准测试中,o1模型的表现也要比GPT-4o好。比如在大规模多任务语言理解(MMLU)测试的57个子类别中,o1模型有54个子类别胜过GPT-4o。
得益于o1模型更强大的推理能力,其对编码和数学等推理能力较强的问题上的回答也更好。
OpenAI表示,在一项人类偏好评估中,对于o1-preview和GPT-4o提供的匿名回答,人类训练师更喜欢o1预览版的回答,特别是在数据分析、编码和数学等推理能力较强的类别中,o1预览版的受欢迎程度远远高于gpt-4o。不过,o1预览版在某些自然语言任务上表现略为逊色,这表明该模型并不适合所有的使用情况。
作为一个针对需要广泛常识的复杂任务而设计的新推理模型,o1模型的价格要比普通模型贵得多。
据OpenAI官网,o1预览版模型每百万个输入tokens的定价为15美元,每百万个输出tokens的价格为60美元,分别是GPT-4o的3倍和4倍。
OpenAI提到,o1模型会更适合正在解决科学、编码、数学和类似领域复杂问题的用户。如,医疗研究人员可以使用o1模型来注释细胞测序数据,物理学家可以使用o1模型来生成量子光学所需的复杂数学公式等。不过,OpenAI也很贴心地提供了一个更便宜的版本——o1-mini。
o1-mini是一个速度更快、成本更低的推理模型,专门针对涉及编码、数学和科学等使用情况。作为一款较小的模型,o1-mini比o1预览版模型要便宜80%。
不管是o1预览版还是o1-mini,都具有128K上下文窗口,其知识均截止至2023年10月。
ChatGPT Plus和Team用户从9月12日起即可开始可以访o1预览版和o1-mini。OpenAI 表示,公司计划后续向ChatGPT的所有免费用户提供o1-mini访问权限,但具体日期还尚未确定。
尽管目前o1模型的推理能力相对较慢,而且使用成本高昂,但是对于人工智能研究人员来说,破解推理是迈向人类智能的重要一步。他们认为,如果一个模型的能力不仅限于模式识别,那么它就可以在医学和工程等领域取得突破。
“我们花了好几个月研究推理,因为我们认为这实际上是一个关键的突破。”OpenAI首席研究官Bob McGrew在接受采访时说道,“从根本上说,这是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。”