OpenAI o1模型震撼来袭
雪球易创9月13日报道,OpenAI在今日凌晨震撼揭晓了备受瞩目的“草莓”模型——o1预览版!它在科学、编程、数学等领域展现出前所未有的解题能力,轻松应对复杂任务,其准确度甚至超越了人类博士!
OpenAI o1,与以往模型不同,在回答前进行深入思考,构建出精细的内部思维链。在竞争激烈的编程问题上,它以第89位的排名傲视群雄,在美国数学奥林匹克预选资格赛中更是以排名前500的成绩。此外,OpenAI o1在物理、生物、化学问题的基准测试中准确度超过了人类博士水平!
与此同时,OpenAI还推出了o1 mini——一款速度更快、体积更小的模型。它采用与o1相同的训练框架,专注于理工学科,尤其在数学和编程领域表现出色,且成本仅为o1预览版的20%。
OpenAI已对o1预览版进行严格测试及评估,确保该模型可以安全发布。
现在,Azure OpenAI 里面已上架,现在可在Playground 体验o1-preview 和 o1-mini 模型已在 Azure AI Studio 和 GitHub Models 中可供Azure 客户使用。
MMLU测试OpenAI o1,编程能力8倍杀GPT-4o
正如预期,OpenAI的o1模型经过精心训练,能够深思熟虑后再给出回答。它在生成答案前会构建详尽的内部思维链,不断自我完善,展现出人类般的思考过程,勇于尝试新策略并及时纠正错误。
在性能测试中,o1在物理、化学和生物学等领域的表现媲美博士生,尤其在数学和编程领域表现卓越。
在国际数学奥林匹克(IMO)资格考试中,o1的正确率高达83%,远超上一代GPT-4o的13%。在Codeforces编程比赛中,o1的得分高达89分,而GPT-4o仅为11分。即使是预览版的o1-preview,其性能也远超GPT-4o 8倍。
o1在57个MMLU子类别中的54个上都超越了GPT-4o。启用视觉感知功能后,o1在MMLU上的得分飙升至78.2%,成为首个与人类专家相提并论的AI模型。
o1预览版测试,编程视频游戏《寻找松鼠》
使用pygame库,我们能够创造出一个名为《寻找松鼠(Squirrel Finder)》的趣味视频游戏。
o1预览版仅用21秒就完成了深思熟虑的过程,它不仅规划了整个游戏的代码结构,还精心设计了游戏布局、绘制指令和屏幕设置等细节,最终输出了完整的游戏编程代码。
将这段代码复制并粘贴到Sublime Text编辑器中,运行它,你将首先看到几行简洁的游戏提示。
紧接着,你就可以开始享受《寻找松鼠》的游戏体验了。
与之前的模型相比,o1模型在规划和执行复杂任务方面展现出了显著的提升,这标志着AI在游戏开发领域的潜力和进步。
OpenAI o1-mini 速度提升3倍成本仅为标准版1/5
OpenAI还推出了经济实惠的o1-mini模型,专为STEM领域推理任务量身定制,以惊人的速度和成本效益领先市场。在STEM优化的预训练和强化学习后,o1-mini在推理任务上的表现超越了o1-preview,且价格仅为其20%。
在AIME高中数学竞赛中,o1-mini以70%的正确率击败了众多对手,直逼美国高中生前500名的水平,而o1和o1-preview的正确率分别为74.4%和44.6%。人类偏好评估显示,o1-mini在推理密集型任务中备受青睐。
速度测试中,o1-mini以9秒的成绩迅速且准确地回答问题,比o1快了3倍多,而GPT-4o虽以3秒最快,但答案错误。尽管o1-mini在非STEM领域存在局限,OpenAI承诺将持续优化,扩展模型能力,未来将覆盖更多领域。这标志着AI在推理和成本效益方面迈出了重要一步。
OpenAI o1模型 题目上手实测
o1已经对Plus用户开放,小编第一时间去试一试。
小编提出一个曾经很致命的问题:
“农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。”
OpenAI o1仅用6秒便构思出了一个无懈可击的答复。
还有那道更难的,姜萍在2024阿里巴巴全球数学竞赛中奥数难题:
它曾让众多顶尖模型束手无策。现在,是时候让o1来挑战这个难题,让我们拭目以待它的表现!
在o1思考了整整1分多钟之后,他给出了答案。
OpenAI o1给出的答案全对。
Azure OpenAI已上架 o1-preview,o1-mini
Azure OpenAI 里面已上架,现在可在Playground 体验。
o1-preview 和 o1-mini 模型现已在 Azure AI Studio 和 GitHub Models 中可供部分 Azure 客户使用,以便他们共同探索和识别每个模型的独特优势。
o1 系列高级推理模型在以下复杂而微妙的问题领域表现出色:
复杂代码生成:能够执行算法生成和高级编码任务,以帮助开发人员。
高级问题解决方案:非常适合全面的头脑风暴会议和解决多方面的问题。
复杂文档比较:非常适合分析合同、案件档案或法律文件以辨别细微的差别。 指令遵循和工作流管理:特别擅长处理需要较短上下文的工作流。