GPT-4o完败:OpenAI o1无限推理token颠覆AI游戏规则!

1.OpenAI o1推理scaling引领AI新革命

CoT技术让o1成为了推理领域的霸主!它引领了推理scaling的新革命——随着算力的飙升和响应时间的延长,o1的性能也在突飞猛进。

图片

你可能会想,如果把o1的训练秘籍应用到所有大模型上,岂不是个个都能成为推理界的王者?

但Epoch AI的研究却告诉我们,事情没那么简单。他们发现,仅仅扩大推理计算的规模,根本无法缩小o1-preview和GPT-4o之间的巨大鸿沟。

图片

他们直言,尽管o1通过逐步推理方法进行了训练,但其性能的飞跃,可能还归功于其他未知的神秘因素。

2.OpenAI o1背后秘诀是什么?

就在上周,o1-preview和o1-mini亮相后,Epoch AI的专家们就迫不及待地把它们和GPT-4o来了个正面硬刚。

他们用GPQA这场研究生级别的测试来决一胜负,结果o1-preview以压倒性优势胜出,不仅秒杀了GPT-4o,还把其他竞争者远远甩在了后面。

图片

但等等,这公平吗?o1可是用了更多的token和推理时间。为了一探究竟,研究人员给GPT-4o来了个"特训",用了多数投票和修正大招,想让它学学o1的思考方式。然而,即使这样,GPT-4o的准确率还是比o1低了整整10个百分点!

图片

更狠的是,哪怕你给GPT-4o烧上1000美元的token费,它的准确率还是比o1低一大截。

图片

看来,o1之所以能傲视群雄,靠的不仅仅是token数量,更可能是它背后那些高深莫测的算法和强化学习技术。

3.OpenAI o1背后秘诀:自学推理

OpenAI发现,随着训练和推理时计算的增加,o1的性能稳步提升。

斯坦福大学2022年的「自学推理」(STaR)技术,让机器像学霸一样自我提升。先给模型例题和解法,再让它挑战新题目,做对了就更新题库,微调模型,让机器学会解题技巧。

图片

而更先进的“Quiet-STaR”技术,也就是神秘的Q*,更是让模型在每个输入后都进行“深思熟虑”,生成内部推理,系统再根据推理的准确性调整参数。这不仅让模型回答问题时更精准,还能在处理各种文本时都进行隐含推理。

图片

简单来说,这就像是给大模型一套自学成才的秘籍,让它在数学和编程领域内自我修炼,不断进步。这种自我学习机制,让模型在这些领域的表现尤为出色。

4.OpenAI o1规划能力仍有待提高

o1在STEM领域的推理能力让人印象深刻,但规划能力如何?

亚利桑那州大学的PlanBench基准测试揭示了真相。o1在Blocksworld任务上达到了97.8%的准确率,远超之前62.6%的最佳成绩。

图片

然而,在Mystery Blocksworld任务中,o1的准确率仅为52.8%,面对随机变体测试时更是下降至37.3%。

图片

这表明o1在处理复杂规划任务时仍然存在局限,尽管它在某些方面表现出色,但与传统规划器相比,如Fast Downward,o1的正确性和可解释性仍有待提高。

5.Azure OpenAI已上架 o1-preview,o1-mini

Azure OpenAI 里面已上架,现在可在Playground 体验。


o1-preview 和 o1-mini 模型现已在 Azure AI Studio 和 GitHub Models 中可供部分 Azure 客户使用,以便他们共同探索和识别每个模型的独特优势。

o1 系列高级推理模型在以下复杂而微妙的问题领域表现出色: 

图片

复杂代码生成:能够执行算法生成和高级编码任务,以帮助开发人员。 
高级问题解决方案:非常适合全面的头脑风暴会议和解决多方面的问题。 
复杂文档比较:非常适合分析合同、案件档案或法律文件以辨别细微的差别。 指令遵循和工作流管理:特别擅长处理需要较短上下文的工作流。

企业申请o1模型入口icon-default.png?t=O83Ahttps://www.snowengine.cn/AzureOpenAi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值