深夜突袭！OpenAI发布史上最强模型-o1，Azure OpenAI已上架！

本文链接：https://blog.csdn.net/weixin_70639631/article/details/142326173

OpenAI o1模型震撼来袭

雪球易创9月13日报道，OpenAI在今日凌晨震撼揭晓了备受瞩目的“草莓”模型——o1预览版！它在科学、编程、数学等领域展现出前所未有的解题能力，轻松应对复杂任务，其准确度甚至超越了人类博士！

OpenAI o1，与以往模型不同，在回答前进行深入思考，构建出精细的内部思维链。在竞争激烈的编程问题上，它以第89位的排名傲视群雄，在美国数学奥林匹克预选资格赛中更是以排名前500的成绩。此外，OpenAI o1在物理、生物、化学问题的基准测试中准确度超过了人类博士水平！

与此同时，OpenAI还推出了o1 mini——一款速度更快、体积更小的模型。它采用与o1相同的训练框架，专注于理工学科，尤其在数学和编程领域表现出色，且成本仅为o1预览版的20%。

OpenAI已对o1预览版进行严格测试及评估，确保该模型可以安全发布。

现在，Azure OpenAI 里面已上架，现在可在Playground 体验o1-preview 和 o1-mini 模型已在 Azure AI Studio 和 GitHub Models 中可供Azure 客户使用。

正如预期，OpenAI的o1模型经过精心训练，能够深思熟虑后再给出回答。它在生成答案前会构建详尽的内部思维链，不断自我完善，展现出人类般的思考过程，勇于尝试新策略并及时纠正错误。

在性能测试中，o1在物理、化学和生物学等领域的表现媲美博士生，尤其在数学和编程领域表现卓越。

在国际数学奥林匹克（IMO）资格考试中，o1的正确率高达83%，远超上一代GPT-4o的13%。在Codeforces编程比赛中，o1的得分高达89分，而GPT-4o仅为11分。即使是预览版的o1-preview，其性能也远超GPT-4o 8倍。

o1在57个MMLU子类别中的54个上都超越了GPT-4o。启用视觉感知功能后，o1在MMLU上的得分飙升至78.2%，成为首个与人类专家相提并论的AI模型。

使用pygame库，我们能够创造出一个名为《寻找松鼠（Squirrel Finder）》的趣味视频游戏。

o1预览版仅用21秒就完成了深思熟虑的过程，它不仅规划了整个游戏的代码结构，还精心设计了游戏布局、绘制指令和屏幕设置等细节，最终输出了完整的游戏编程代码。

将这段代码复制并粘贴到Sublime Text编辑器中，运行它，你将首先看到几行简洁的游戏提示。

紧接着，你就可以开始享受《寻找松鼠》的游戏体验了。

与之前的模型相比，o1模型在规划和执行复杂任务方面展现出了显著的提升，这标志着AI在游戏开发领域的潜力和进步。

OpenAI还推出了经济实惠的o1-mini模型，专为STEM领域推理任务量身定制，以惊人的速度和成本效益领先市场。在STEM优化的预训练和强化学习后，o1-mini在推理任务上的表现超越了o1-preview，且价格仅为其20%。

在AIME高中数学竞赛中，o1-mini以70%的正确率击败了众多对手，直逼美国高中生前500名的水平，而o1和o1-preview的正确率分别为74.4%和44.6%。人类偏好评估显示，o1-mini在推理密集型任务中备受青睐。

速度测试中，o1-mini以9秒的成绩迅速且准确地回答问题，比o1快了3倍多，而GPT-4o虽以3秒最快，但答案错误。尽管o1-mini在非STEM领域存在局限，OpenAI承诺将持续优化，扩展模型能力，未来将覆盖更多领域。这标志着AI在推理和成本效益方面迈出了重要一步。

o1已经对Plus用户开放，小编第一时间去试一试。

小编提出一个曾经很致命的问题：

“农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。”

OpenAI o1仅用6秒便构思出了一个无懈可击的答复。

还有那道更难的，姜萍在2024阿里巴巴全球数学竞赛中奥数难题：

它曾让众多顶尖模型束手无策。现在，是时候让o1来挑战这个难题，让我们拭目以待它的表现！

在o1思考了整整1分多钟之后，他给出了答案。

OpenAI o1给出的答案全对。

Azure OpenAI 里面已上架，现在可在Playground 体验。

o1-preview 和 o1-mini 模型现已在 Azure AI Studio 和 GitHub Models 中可供部分 Azure 客户使用，以便他们共同探索和识别每个模型的独特优势。

o1 系列高级推理模型在以下复杂而微妙的问题领域表现出色：

复杂代码生成：能够执行算法生成和高级编码任务，以帮助开发人员。
高级问题解决方案：非常适合全面的头脑风暴会议和解决多方面的问题。
复杂文档比较：非常适合分析合同、案件档案或法律文件以辨别细微的差别。指令遵循和工作流管理：特别擅长处理需要较短上下文的工作流。