OpenAI再扔出“王炸”!全新推理模型可达人类博士水平

閱讀時間約 4 分鐘

9月12日,OpenAI宣布将推出一系列用于解决难题的全新推理模型,该系列的第一个模型名为OpenAI o1,其预览版即日起开始使用。

OpenAI表示,与之前推出模型相比,o1模型可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题。

“这些模型花更多时间思考问题,然后再做出反应,就像人类一样。”OpenAI介绍道,“通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。”

o1模型有多强大?

o1模型有多厉害呢,该模型在编程能力比赛Codeforces中拿到89%百分位的成绩,在2024美国数学邀请赛(American Invitational Mathematics Examinatio,AIME) 预选赛中获得83.3%的准确率,跻身美国前500名学生之列。

相比之下,GPT-4o在Codeforces仅拿到11%百分位的成绩,在AIME中的准确率只有13.4%。

此外,在一个研究生级别的谷歌问答基准测试——GPQA(Grade School Physics Question Answering)中,o1模型的表现也十分惊人。GPQA是一个具有挑战性的数据集,包含数百道生物学、物理学和化学领域专家编写的多项选择题。

通常来说,在相应领域拥有或正在攻读博士学位的专家在GPQA的准确率在70%上下,而o1模型在该测试中达到了78%的准确率,也就是说,o1模型已经达到人类博士生的水平。

除了上述这些高难度的测试,在一些广泛的基准测试中,o1模型的表现也要比GPT-4o好。比如在大规模多任务语言理解(MMLU)测试的57个子类别中,o1模型有54个子类别胜过GPT-4o。

得益于o1模型更强大的推理能力,其对编码和数学等推理能力较强的问题上的回答也更好。

OpenAI表示,在一项人类偏好评估中,对于o1-preview和GPT-4o提供的匿名回答,人类训练师更喜欢o1预览版的回答,特别是在数据分析、编码和数学等推理能力较强的类别中,o1预览版的受欢迎程度远远高于gpt-4o。不过,o1预览版在某些自然语言任务上表现略为逊色,这表明该模型并不适合所有的使用情况。

更强,也更贵

作为一个针对需要广泛常识的复杂任务而设计的新推理模型,o1模型的价格要比普通模型贵得多。

据OpenAI官网,o1预览版模型每百万个输入tokens的定价为15美元,每百万个输出tokens的价格为60美元,分别是GPT-4o的3倍和4倍。

OpenAI提到,o1模型会更适合正在解决科学、编码、数学和类似领域复杂问题的用户。如,医疗研究人员可以使用o1模型来注释细胞测序数据,物理学家可以使用o1模型来生成量子光学所需的复杂数学公式等。不过,OpenAI也很贴心地提供了一个更便宜的版本——o1-mini。

o1-mini是一个速度更快、成本更低的推理模型,专门针对涉及编码、数学和科学等使用情况。作为一款较小的模型,o1-mini比o1预览版模型要便宜80%。

不管是o1预览版还是o1-mini,都具有128K上下文窗口,其知识均截止至2023年10月。

ChatGPT Plus和Team用户从9月12日起即可开始可以访o1预览版和o1-mini。OpenAI 表示,公司计划后续向ChatGPT的所有免费用户提供o1-mini访问权限,但具体日期还尚未确定。

尽管目前o1模型的推理能力相对较慢,而且使用成本高昂,但是对于人工智能研究人员来说,破解推理是迈向人类智能的重要一步。他们认为,如果一个模型的能力不仅限于模式识别,那么它就可以在医学和工程等领域取得突破。

“我们花了好几个月研究推理,因为我们认为这实际上是一个关键的突破。”OpenAI首席研究官Bob McGrew在接受采访时说道,“从根本上说,这是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。”

#OpenAI##人工智能##AI#

    0會員
    155內容數
    留言0
    查看全部
    發表第一個留言支持創作者!
    你可能也想看
    Google News 追蹤
    Thumbnail
    這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
    Thumbnail
    美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
    Thumbnail
    Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
    Thumbnail
    這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
    Thumbnail
    美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
    Thumbnail
    Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...