OpenAI再扔出“王炸”!全新推理模型可达人类博士水平

更新於 發佈於 閱讀時間約 4 分鐘

9月12日,OpenAI宣布将推出一系列用于解决难题的全新推理模型,该系列的第一个模型名为OpenAI o1,其预览版即日起开始使用。

OpenAI表示,与之前推出模型相比,o1模型可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题。

“这些模型花更多时间思考问题,然后再做出反应,就像人类一样。”OpenAI介绍道,“通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。”

o1模型有多强大?

o1模型有多厉害呢,该模型在编程能力比赛Codeforces中拿到89%百分位的成绩,在2024美国数学邀请赛(American Invitational Mathematics Examinatio,AIME) 预选赛中获得83.3%的准确率,跻身美国前500名学生之列。

相比之下,GPT-4o在Codeforces仅拿到11%百分位的成绩,在AIME中的准确率只有13.4%。

此外,在一个研究生级别的谷歌问答基准测试——GPQA(Grade School Physics Question Answering)中,o1模型的表现也十分惊人。GPQA是一个具有挑战性的数据集,包含数百道生物学、物理学和化学领域专家编写的多项选择题。

通常来说,在相应领域拥有或正在攻读博士学位的专家在GPQA的准确率在70%上下,而o1模型在该测试中达到了78%的准确率,也就是说,o1模型已经达到人类博士生的水平。

除了上述这些高难度的测试,在一些广泛的基准测试中,o1模型的表现也要比GPT-4o好。比如在大规模多任务语言理解(MMLU)测试的57个子类别中,o1模型有54个子类别胜过GPT-4o。

得益于o1模型更强大的推理能力,其对编码和数学等推理能力较强的问题上的回答也更好。

OpenAI表示,在一项人类偏好评估中,对于o1-preview和GPT-4o提供的匿名回答,人类训练师更喜欢o1预览版的回答,特别是在数据分析、编码和数学等推理能力较强的类别中,o1预览版的受欢迎程度远远高于gpt-4o。不过,o1预览版在某些自然语言任务上表现略为逊色,这表明该模型并不适合所有的使用情况。

更强,也更贵

作为一个针对需要广泛常识的复杂任务而设计的新推理模型,o1模型的价格要比普通模型贵得多。

据OpenAI官网,o1预览版模型每百万个输入tokens的定价为15美元,每百万个输出tokens的价格为60美元,分别是GPT-4o的3倍和4倍。

OpenAI提到,o1模型会更适合正在解决科学、编码、数学和类似领域复杂问题的用户。如,医疗研究人员可以使用o1模型来注释细胞测序数据,物理学家可以使用o1模型来生成量子光学所需的复杂数学公式等。不过,OpenAI也很贴心地提供了一个更便宜的版本——o1-mini。

o1-mini是一个速度更快、成本更低的推理模型,专门针对涉及编码、数学和科学等使用情况。作为一款较小的模型,o1-mini比o1预览版模型要便宜80%。

不管是o1预览版还是o1-mini,都具有128K上下文窗口,其知识均截止至2023年10月。

ChatGPT Plus和Team用户从9月12日起即可开始可以访o1预览版和o1-mini。OpenAI 表示,公司计划后续向ChatGPT的所有免费用户提供o1-mini访问权限,但具体日期还尚未确定。

尽管目前o1模型的推理能力相对较慢,而且使用成本高昂,但是对于人工智能研究人员来说,破解推理是迈向人类智能的重要一步。他们认为,如果一个模型的能力不仅限于模式识别,那么它就可以在医学和工程等领域取得突破。

“我们花了好几个月研究推理,因为我们认为这实际上是一个关键的突破。”OpenAI首席研究官Bob McGrew在接受采访时说道,“从根本上说,这是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。”

#OpenAI##人工智能##AI#

avatar-img
0會員
155內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~