OpenAI发布全新o1系列:AI推理能力的革命性突破

刚刚,OpenAI无预警推出了新模型:o1系列。这款新模型能够进行复杂的通用推理,每次回答都需花费更多时间进行深入思考。

相比之前的GPT-4o,o1在解决高难度问题时表现显著提升。例如,在博士级别的物理问题测试中,GPT-4o仅取得了59.5分,而o1模型一举获得92.8分,达到了“优秀”水平。

没错,传说中的「草莓」终于正式登场!

CEO奥特曼:新范式的开始

CEO奥特曼称o1系列开启了人工智能的新范式,具备通用复杂推理的能力。具体来说,o1是OpenAI首个通过强化学习训练的模型。在输出结果之前,它会生成一条长思维链,以此增强推理能力。换句话说,思维链越长,o1的思考越深入,推理表现越出色。

o1的实力

o1的表现有多强?奥特曼给出了答案。在2024年国际信息学奥林匹克竞赛(IOI)的测试中,o1的微调版本在50次尝试条件下取得了213分,跻身人类选手的前49%。如果允许其进行10000次尝试,它能获得362.14分,超越金牌门槛。

此外,o1在编程比赛Codeforces中排名前89%,在美国数学奥林匹克预选赛中跻身前500名,展示出强大的推理和计算能力。

与GPT-4o相比,o1在多学科的表现都有所提升。

o1系列型号

OpenAI的o1系列分为三个型号:

  1. o1:最强大的大模型,目前暂不公开。

  2. o1-preview:早期版本,ChatGPT付费用户和API用户可以立即使用。

  3. o1-mini:更快、更经济,适用于需要推理但不需要广泛知识的任务。

OpenAI员工常用“系统1”和“系统2”的思维模式来解释o1系列与以往模型的区别。连长期休假的总裁Brockman也为此“诈尸”回归。

强化学习与思维链

思维链提示方法的原作者Jason Wei指出,o1不是单纯依赖提示,而是通过强化学习训练,提升链式思维能力。它能像人类一样将复杂问题拆解为多个简单步骤、识别并纠正错误、尝试不同的方法。

AI能力新天花板

通过强化学习,o1模型逐渐完善自己的思维过程,学会尝试不同策略并识别错误。尽管o1尚未具备联网搜索和上传文件等功能,但在复杂推理任务上已经取得了显著进步。OpenAI表示,o1代表了AI技术的最高水平。

思维链的示例

在编写Bash脚本的任务中,GPT-4o会直接动手编写代码,可能得到错误结果。

而o1-preview则先复述问题,拆解任务,列出方法步骤,最终确保一次性正确完成代码。

o1可以帮助医疗研究人员注释细胞测序数据,帮助物理学家生成复杂公式,或帮助开发人员构建和执行多步骤工作流程。

人类专家的测试

OpenAI邀请了一些专家学者试用o1模型,量子物理学者Mario Krenn展示了GPT-4o无法解决的问题,而o1-preview则成功完成计算。

未来发展方向

目前o1的推理时间为几秒至十几秒,但OpenAI的目标是让未来版本花费数小时、数天甚至数周来思考,尽管推理成本会增加,但这种深入思考有望带来突破性发现。

谁可以访问o1?

ChatGPT Plus和Team用户可在几个小时内体验o1系列。发布时,o1-preview限制为每周30条消息,o1-mini则是每周50条。API访问将优先开放给Tier 5用户(在OpenAI API上花费超过1000美元的用户)。

快去打开ChatGPT,看看你是不是第一批吃到“草莓”的人吧!

参考链接:

https://openai.com/o1/

https://x.com/polynoamial/status/1834280155730043108

国内直接使用ChatGPT4o:

谷歌浏览器直接使用:https://www.nezhasoft.cn

  1. 无需魔法,同时支持手机、电脑

  2. 个人独享

  3. ChatGPT4o mini永久免费

  4. 支持Copilot、DALLE AI绘画、上传文件等

长按识别下方二维码,备注:南阳,发给你

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值