深夜突袭!OpenAI发布史上最强模型-o1,Azure OpenAI已上架!

OpenAI o1模型震撼来袭

雪球易创9月13日报道,OpenAI在今日凌晨震撼揭晓了备受瞩目的“草莓”模型——o1预览版!它在科学、编程、数学等领域展现出前所未有的解题能力,轻松应对复杂任务,其准确度甚至超越了人类博士!

图片

OpenAI o1,与以往模型不同,在回答前进行深入思考,构建出精细的内部思维链。在竞争激烈的编程问题上,它以第89位的排名傲视群雄,在美国数学奥林匹克预选资格赛中更是以排名前500的成绩。此外,OpenAI o1在物理、生物、化学问题的基准测试中准确度超过了人类博士水平!

图片

与此同时,OpenAI还推出了o1 mini——一款速度更快、体积更小的模型。它采用与o1相同的训练框架,专注于理工学科,尤其在数学和编程领域表现出色,且成本仅为o1预览版的20%

图片

OpenAI已对o1预览版进行严格测试及评估,确保该模型可以安全发布。

现在,Azure OpenAI 里面已上架,现在可在Playground 体验o1-preview 和 o1-mini 模型已在 Azure AI Studio 和 GitHub Models 中可供Azure 客户使用。

图片

MMLU测试OpenAI o1,编程能力8倍杀GPT-4o

正如预期,OpenAI的o1模型经过精心训练,能够深思熟虑后再给出回答。它在生成答案前会构建详尽的内部思维链,不断自我完善,展现出人类般的思考过程,勇于尝试新策略并及时纠正错误。

在性能测试中,o1在物理、化学和生物学等领域的表现媲美博士生,尤其在数学和编程领域表现卓越。

图片

在国际数学奥林匹克(IMO)资格考试中,o1的正确率高达83%,远超上一代GPT-4o的13%。在Codeforces编程比赛中,o1的得分高达89分,而GPT-4o仅为11分。即使是预览版的o1-preview,其性能也远超GPT-4o 8倍。

o1在57个MMLU子类别中的54个上都超越了GPT-4o。启用视觉感知功能后,o1在MMLU上的得分飙升至78.2%,成为首个与人类专家相提并论的AI模型。

o1预览版测试,编程视频游戏《寻找松鼠》

使用pygame库,我们能够创造出一个名为《寻找松鼠(Squirrel Finder)》的趣味视频游戏。

图片

o1预览版仅用21秒就完成了深思熟虑的过程,它不仅规划了整个游戏的代码结构,还精心设计了游戏布局、绘制指令和屏幕设置等细节,最终输出了完整的游戏编程代码。

图片

将这段代码复制并粘贴到Sublime Text编辑器中,运行它,你将首先看到几行简洁的游戏提示。

图片

紧接着,你就可以开始享受《寻找松鼠》的游戏体验了。

图片

与之前的模型相比,o1模型在规划和执行复杂任务方面展现出了显著的提升,这标志着AI在游戏开发领域的潜力和进步。

OpenAI o1-mini 速度提升3倍成本仅为标准版1/5

OpenAI还推出了经济实惠的o1-mini模型,专为STEM领域推理任务量身定制,以惊人的速度和成本效益领先市场。在STEM优化的预训练和强化学习后,o1-mini在推理任务上的表现超越了o1-preview,且价格仅为其20%。

图片

在AIME高中数学竞赛中,o1-mini以70%的正确率击败了众多对手,直逼美国高中生前500名的水平,而o1和o1-preview的正确率分别为74.4%和44.6%。人类偏好评估显示,o1-mini在推理密集型任务中备受青睐。

图片

速度测试中,o1-mini以9秒的成绩迅速且准确地回答问题,比o1快了3倍多,而GPT-4o虽以3秒最快,但答案错误。尽管o1-mini在非STEM领域存在局限,OpenAI承诺将持续优化,扩展模型能力,未来将覆盖更多领域。这标志着AI在推理和成本效益方面迈出了重要一步。

图片

OpenAI o1模型 题目上手实测

o1已经对Plus用户开放,小编第一时间去试一试。

小编提出一个曾经很致命的问题:

“农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。”

图片

OpenAI o1仅用6秒便构思出了一个无懈可击的答复。

还有那道更难的,姜萍在2024阿里巴巴全球数学竞赛中奥数难题:

图片

它曾让众多顶尖模型束手无策。现在,是时候让o1来挑战这个难题,让我们拭目以待它的表现!

图片

在o1思考了整整1分多钟之后,他给出了答案。

OpenAI o1给出的答案全对。

Azure OpenAI已上架 o1-preview,o1-mini

Azure OpenAI 里面已上架,现在可在Playground 体验。


o1-preview 和 o1-mini 模型现已在 Azure AI Studio 和 GitHub Models 中可供部分 Azure 客户使用,以便他们共同探索和识别每个模型的独特优势。

o1 系列高级推理模型在以下复杂而微妙的问题领域表现出色: 


复杂代码生成:能够执行算法生成和高级编码任务,以帮助开发人员。 
高级问题解决方案:非常适合全面的头脑风暴会议和解决多方面的问题。 
复杂文档比较:非常适合分析合同、案件档案或法律文件以辨别细微的差别。 指令遵循和工作流管理:特别擅长处理需要较短上下文的工作流。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值