2024 年 9 月 12 日(当地时间),OpenAI 发布了其首款具备推理能力的模型 o1,这是计划中的一系列“推理”模型中的第一个。o1-preview 可以回答相当于人类博士水平的问题,速度也比人类更快。o1-mini 速度更快,价格比 o1-preview 便宜80%,并且在编码任务等能力方面可与 o1-preview 相媲美。


命名含义
OpenAI 表示 “o1” 代表了人工智能能力的新水平,将计数器重置为 1,意味着这是一个新的开始,并非之前 GPT 系列的延续。AI圈网红Jim Fan 表示o1的发布里程碑意义在于,它验证了此前所说的“两条曲线协同工作”理论,展示了训练计算和测试计算如何共同影响模型的最终性能。

训练方式
o1 使用了一种全新的优化算法和为其量身定制的新训练数据集。它采用“思维链”(chain of thought)模式进行训练,在给出回答前会在“脑子”里进行内部对话,类似人类通过逐步解决问题的方式处理问题,以此提升模型的逻辑推理能力。
而在传统的模型训练强调在训练时投入大量计算资源。而 o1 模型代表了一种新的 AI 模型开发范式。它强调了测试时计算(或推理时计算)的重要性—— o1 通过增加在测试/推理时的计算资源显著提高了模型性能。

性能表现

一、数学方面
在 2024 年美国数学邀请赛(AIME)中,GPT-4o 的平均正确率为 12%,而 o1 在首次尝试的平均正确率就达到了 74%。通过使用集体决策和高级评分策略,o1 的正确率最高可达 93%。

这一成绩不仅让o1跻身全美前500名优秀学生之列,还超过了美国数学奥林匹克竞赛的入选分数线。
二、科学研究方面
在 GPQA Diamond(GPQA Diamond 是一项专门评估化学、物理和生物等领域专业知识的测试)中 o1 在完成测试的同时还超越了部分相关领域的博士,表明 AI 在特定专业领域的能力已经达到了一个新高度。

三、编程方面
在国际信息学奥林匹克竞赛(IOI)中表现卓越,在和人类参赛者相同的条件下,o1 获得了 213 分的高分,位列参赛者的前 50%。当限制进一步放宽(每个问题的提交次数从 50 提高到 10000 次),o1 取得了 362.14 的高分,超越了金牌的获得门槛。在模拟 Codeforces 平台的竞争性编程比赛中,o1 获得了 1807 的高分,超越了 93% 的人类竞争者,这一成绩远远超过了 GPT-4o。

总的来说,o1 是一个非常善于思考、推理的大模型。并且,其运作机制与基于 Scaling Law 的大模型不同,这让它不必基于大量的计算消耗来提升性能,而是一个相当垂直的模型。
局限性
尽管 o1 无论在训练方式、性能表现方面与其他 AI 都表现得性能卓越,但是依旧面临着一些局限性
- 处理速度相对较慢,有时需要超过 10 秒才能回答一个问题,在需要快速响应的场景中可能存在问题。
- 目前无法浏览网页,也不能处理文件和图像,是一个纯文本模型,缺乏多模态能力。
- 更容易产生 “幻觉”,即生成看似合理但实际上并不准确的信息,并且似乎不如 GPT-4o 那样经常承认自己不知道答案,可能会在某些情况下导致误导性的输出。
目前,OpenAI 官方建议将 o1 用于解决科学、编码、数学和其他相关领域。关于访问权限 ChatGPT Plus 和 Team 用户可以访问 o1-preview 和 o1-mini;企业用户和 Edu 用户将于下周获得访问权限256。对于开发者来说,访问 o1 的成本较高,在 API 中,o1-preview 中每 100 万个 token 的输入价格为 15 美元,输出价格为 60 美元。
照片来源:网络

1195

被折叠的 条评论
为什么被折叠?



