OpenAI 新品发布会: Day 1 o1 pro 【全中文语音】
直播内容总结:
- O1 正式版:
- 提升:更智能、更快、多模态输入、更擅长指令遵循、编码效能提升、错误率降低约 34%、思考速度提升约 50%。
- 多模态:能同时处理图像和文字信息,并具备处理未明确指定参数的能力。
- 取代:取代 O1 预览版,提供给 ChatGPT Plus 和 Pro 订阅者使用。
- ChatGPT Pro:
- 价格:每月 200 美元。
- 功能:无限模型使用、高级语音模式、O1 Pro 模式。
- 目标用户:高需求用户,例如在数学、程序设计、写作方面将模型推向极限的使用者。
- O1 Pro 模式:
- 功能:允许模型使用更多计算资源,提升性能和可靠性。
- 应用场景:适用于高难度的数学、科学和程序设计问题。
- 未来发展:
- ChatGPT Pro:更密集的计算任务支持、更多工具(网页浏览、文件上传)。
- O1 API:结构化输出、函数调用、开发者消息、API 图像理解。
- OpenAI 的战略布局: 通过推出 O1 正式版和 ChatGPT Pro,OpenAI 展现了其在模型性能提升和商业化方面的努力。O1 的改进旨在提供更好的用户体验,而 ChatGPT Pro 则锁定高需求用户,提供更强大的功能和更稳定的服务,以获取更高的收益。
- 多模态的潜力: 多模态输入的加入,标志着大型语言模型能力的进一步提升,开启了更广泛的应用场景,例如图像理解、图文结合的创作等等。
- 重视开发者生态: OpenAI 积极发展 O1 API 并提供一系列开发者友好的功能,显示其重视开发者生态,希望通过开发者的力量,将 AI 技术应用到更多领域。
- 持续迭代与优化: OpenAI 承诺持续改进 O1 和 ChatGPT Pro,并持续推出新功能,这体现了其快速迭代和持续优化的产品策略。
中文逐字稿(简体):
- 欢迎来到 OpenAI 的 12 天活动。
- 我们将尝试一件据我们所知,没有任何科技公司做过的事情,
- 就是在接下来的 12 天里,每个工作日,我们都会发布或演示一些
- 我们构建的新东西。
- 我们认为从今天开始,我们为您准备了一些很棒的东西。
- 我们希望你会真的喜欢它。
- 你知道,我们会尽量让这件事变得有趣、快速,而且不会花太长时间,但这将是一种
- 向您展示我们一直在做什么的方式,也是我们送给您的一份小假日礼物。
- 所以我们就直接进入这第一天吧。
- 今天我们实际上有两件事要发布。
- 第一个是 O1 的完整版本。
- 我们一直在非常努力地工作。
- 我们听取了您的意见反馈。
- 您喜欢 O1 预览版,但您希望它更智能、更快、多模态,并且
- 更擅长遵循指令,以及其他一些事情。
- 所以我们在这方面投入了很多工作。
- 我们认为,对于科学家、工程师、程序设计师来说,他们会非常喜欢这个新模型。
- 我想快速地向您展示它的性能。
- 您可以看到从 GPT-4.0 到 O1 预览版在数学、竞赛编码、GPQA、Diamond 方面的提升。
- 您可以看到 O1 是一个相当大的进步。
- 它在许多其他方面也做得更好,但原始智慧是我们
- 关心的东西。
- 特别是编码性能是人们大量使用模型的一个领域。
- 所以稍后,这些人将演示一些关于 O1 的东西。
- 他们会向您展示它的速度、它如何处理真正困难的问题,以及它如何处理
- 多模态。
- 但首先我想先谈谈我们今天要发布的第二件事。
- 许多人,ChatGPT 的高级用户,他们真的经常使用它,而且他们
- 想要比每月 20 美元能买到的更多的计算资源。
- 因此,我们将推出一个新的级别,ChatGPT Pro。
- Pro 可以无限次地使用我们的模型,以及像高级语音模式之类的功能。
- 它还有一个叫做 O1 Pro 模式的新功能。
- 因此,O1 是目前世界上最智能的模型,除了在 Pro 模式下使用的 O1。
- 对于人们遇到的最困难的问题,O1 Pro 模式可以让您做得更好一点。
- 您可以看到竞赛数学,您可以看到 GPQA Diamond。
- 这些提升可能看起来很小,但在您真正突破
- 这些模型的极限的复杂工作流程中,这是相当重要的。
- 我将向您展示更多关于 Pro 模式的信息。
- 人们真正想要的一件事是可靠性。
- 在这里,您可以看到 Pro 模式答案的可靠性与 O1 的比较,而且
- 这个差距更加明显。
- 同样,对于我们的 Pro 用户,我们听到了很多人想要这个功能的声音。
- ChatGPT Pro 每月 200 美元,今天推出。
- 在这 12 天中,我们还有一些其他的东西要添加到它里面,我们认为
- 你也会非常喜欢,例如无限的模型使用和这个新的 O1 Pro 模式。
- 所以我想要直接进入正题,并展示我们谈到的一些演示。
- 这些人是帮助构建 O1 的一些人,他们背后还有团队中的许多其他人。
- 谢谢,Sam。
- 你好,我是 Hyungwon。
- 我是 Jason。
- 我是 Max。
- 我们都是从事 O1 构建的研究科学家。
- O1 真正与众不同之处在于,它是我们训练的第一个在回应之前先思考的模型,这意味着它能提供比您可能尝试过的其他模型更好、通常更详细、更正确的回应。
- O1 将于今天推出给所有 Plus 和即将成为 Pro 的 ChatGPT 订阅者,取代
- O1 预览版。
- O1 模型比我们在 9 月推出的 O1 预览版模型更快、更智能。
- 发布后,许多人询问了多模态输入的问题,所以我们添加了这个功能。
- 因此,现在今天的 O1 模型能够同时推理图像和文本。
- 正如 Sam 提到的,今天我们还将推出一个新的 ChatGPT 级别,称为 ChatGPT Pro。
- ChatGPT Pro 提供无限次使用我们最好的模型,例如 O1、4.0 和高级语音。
- ChatGPT Pro 还有一种特殊的 O1 使用方式,称为 O1 Pro 模式。
- 使用 O1 Pro 模式,您可以要求模型使用更多的计算资源来更深入地思考
- 一些最困难的问题。
- 我们认为 ChatGPT Pro 的受众将是 ChatGPT 的高级用户,那些
- 已经在数学、程序设计等任务上将模型推向其能力极限的人,
- 以及写作。
- 看到人们如何推动 O1 预览版,看到那些整天
- 从事技术工作的人从中获得了多少东西,真是太棒了,我们真的很兴奋能让他们更进一步。
- 我们也真的认为 O1 将更适合日常使用案例,而不一定是
- 非常困难的数学和程序设计问题。
- 特别是,我们收到的关于 O1 预览版的一个持续的反馈是它
- 太慢了。
- 如果你跟它打招呼,它会思考 10 秒钟。
- 我们解决了这个问题。
- 那真的很烦人。
- 说实话,这有点好笑。
- 是的。
- 它真的在思考。
- 它很在意。
- 它真的很努力地想着要回复你的问候。
- 它很在意。
- 是的。
- 所以我们解决了这个问题。
- 我们认为它会更智能地思考。
- 如果你问它一个简单的问题,它会很快地回答。
- 如果你问它一个非常困难的问题,它会思考很长时间。
- 我们为这个模型进行了一套相当详细的人工评估。
- 我们发现,与 O1 预览版相比,它犯重大错误的次数减少了约 34%,而
- 思考速度提高了 50%。
- 我们认为这对大家来说将是一个非常非常明显的区别。
- 我真的很喜欢与这些模型交谈。
- 我是一个历史爱好者。
- 我将快速地向您展示一个我可能会
- 问这些模型的问题。
- 这里,左边是 O1。
- 右边是 O1 预览版。
- 我只是问它一个非常简单的历史问题。
- 列出二世纪的罗马皇帝。
- 告诉我他们的日期,他们做了什么。
- 不难。
- 但是 GPT-4.0 实际上经常会把这个弄错。
- 所以我问了 O1 这个问题。
- 我问了 O1 预览版这个问题。
- 我离线测试了几次。
- 我发现,平均而言,O1 的回应速度比 O1 预览版快 60%。
- 这可能会有一些变化,因为现在,我们正在将
- 我们所有的 GPU 从 O1 预览版换到 O1。
- 因此,实际上,O1 思考了大约 14 秒。
- O1 预览版,仍在运行中。
- 罗马皇帝有很多。
- 罗马皇帝有很多。
- 是的,4.0 实际上经常会把这个弄错。
- 有很多人统治了 6 天、12 天、一个月。
- 它有时会忘记这些。
- 你能全部记住吗?包括那些只统治 6 天的人?
- 不能。
- 是的。
- 所以我们开始吧。
- O1 预览版思考了大约 14 秒。
- O1 预览版思考了大约 33 秒。
- 一旦我们完成部署,这些都应该会更快,但我们希望它现在就能上线。
- 没错。
- 所以是的,我们认为你会非常喜欢与这个模型交谈。
- 我们发现它给出了很好的回应。
- 它思考得更快了。
- 对每个人来说,这应该是一个更好的用户体验。
- 我们知道人们真正想要的另一个日常使用案例的功能,我们已经
- 收到了很多请求,那就是多模态输入和图像理解。
- Hyungwon 现在要谈谈这个。
- 是的。
- 为了说明多模态输入和推理,我用一些
- 手绘图等创建了这个玩具问题。
- 所以就是这样。
- 很难看到。
- 所以我已经拍了一张照片。
- 让我们在笔记本电脑上看看这张照片。
- 将图像上传到 ChatGPT 后,您可以点击它来查看放大版本。
- 这是太空数据中心的系统。
- 也许在未来,我们可能想要在太空中训练 AI 模型。
- 我认为我们应该这样做。
- 但是功率数字看起来有点低。
- 1 吉瓦。
- 1 吉瓦。
- 好的。
- 但总体思路,我认为。
- 新手数字。
- 是的,新手数字。
- 好的。
- 是的。
- 所以我们这里有一个太阳,在这个太阳能电池板上吸收能量。
- 然后这里有一个小型数据中心。
- 它们就是这个样子。
- 是的。
- GPU,对吧?
- 然后是泵。
- 这里的泵。
- 太空作业的一个有趣之处在于,在地球上,我们可以使用空气冷却、
- 水冷却来冷却 GPU。
- 但在太空中,什么都没有。
- 所以我们必须将这些热量辐射到外太空。
- 这就是为什么我们需要这个巨大的散热器冷却面板。
- 这个问题是关于找到操作这个 1 吉瓦数据中心所需的冷却面板面积的下限估计。
- 可能会非常大。
- 是的。
- 让我们看看它有多大。
- 让我们看看。
- 所以这就是问题所在。
- 我要输入这个提示。
- 是的,这本质上是在问这个问题。
- 让我按下开始。
- 模型会思考几秒钟。
- 顺便说一下,大多数人不知道。
- 我和 Hemwon 合作了很长时间。
- Hemwon 实际上拥有热力学博士学位,这与 AI 完全无关。
- 你总是开玩笑说,直到今天,你才
- 能够在你的工作中用到你的博士研究成果。
- 所以你可以相信 Hemwon 的分析。
- 终于,终于。
- 感谢你的赞扬。
- 现在我真的必须把它弄对。
- 好的。
- 所以模型完成了思考。
- 只用了 10 秒钟。
- 这是一个简单的问题。
- 让我们看看模型是如何做到的。
- 所以功率输入。
- 首先,这 1 吉瓦,只是画在纸上的。
- 所以模型能够很好地理解这一点。
- 然后只有辐射热传递。
- 这是我提到的。
- 所以在太空中,没有其他东西。
- 然后是一些简化的选择。
- 一个关键的事情是,我故意让这个问题的规格不明确,这意味着
- 关键参数是冷却面板的温度。
- 我把它省略了,这样我们就可以测试模型处理模糊性的能力等等。
- 所以模型能够识别出这实际上是一个未指定但重要的参数。
- 它实际上选择了正确的温度范围,大约是室温。
- 然后,它继续进行分析,做了很多事情,然后
- 计算出了面积,即 242 万平方米。
- 为了了解它有多大,这大约是旧金山陆地面积的 2%。
- 这太大了。
- 还不错。
- 还不错,是的。
- 哦,好的。
- 是的。
- 所以我想这是合理的。
- 我将跳过其余的细节,但我认为模型做得很好,它做出了一些
- 良好且一致的假设,使所需面积尽可能地小。
- 所以,是的,这就是多模态推理的演示。
- 这是一个简单的问题,但 O1 实际上非常强大。
- 在 MMU 和 MathVista 等标准基准测试中,O1 实际上拥有最先进的性能。
- 现在 Jason 将展示专业模式。
- 很好。
- 我想简要演示一下 ChatGPT-O1 Pro 模式。
- 人们会发现 O1 Pro 模式对于例如困难的数学、科学或程序设计
- 问题最有用。
- 这里我有一个相当具有挑战性的化学问题,O1 预览版通常会答错。
- 所以我让模型开始思考。
- 我们从这些模型中学到的一件事是,对于这些非常具有挑战性的问题,
- 模型可以思考长达几分钟。
- 我认为对于这个问题,模型通常会思考一分钟到三分钟
- 不等。
- 所以我们必须在模型思考的同时为人们提供一些娱乐。
- 我会稍微描述一下这个问题,然后如果模型在我讲完后还在思考,
- 我准备了一个冷笑话来填补剩余的时间。
- 所以我希望它能思考很长时间。
- 正如你所见,这个问题要求一个符合非常特定标准的蛋白质。
- 所以有六个标准。
- 挑战在于,它们中的每一个都需要相当多的化学领域的专业知识
- 模型必须记住这些知识。
- 关于这个问题,还有一点需要注意的是,这些标准都没有
- 透露正确答案是什么。
- 因此,对于任何一个标准,可能有几十种蛋白质符合该标准。
- 因此,模型必须仔细考虑所有候选蛋白质,然后检查它们是否符合
- 所有标准。
- 好的。
- 你可以看到,这次模型实际上更快了。
- 它在 53 秒内完成了。
- 你可以点击查看模型为得到答案所经历的一些思考过程。
- 你可以看到它最初考虑了不同的候选蛋白质,例如神经配体。
- 然后它得出了正确的答案,视黄酸,这很好。
- 好的。
- 总结一下,我们从 Max 那里看到,O1 比 O1 预览版更智能、更快。
- 我们从 Hyungwon 那里看到,O1 现在可以同时推理文本和图像。
- 最后,我们看到了 ChatGPT Pro 模式,您可以使用 O1 来思考、推理
- 最难的科学和数学问题。
- 是的。
- ChatGPT Pro 级别还有更多功能。
- 我们正在研究更密集的计算任务,以便为那些想要更进一步推动模型的人提供更长、更大的任务。
- 我们仍在努力向 O1 模型添加工具,例如网页浏览、文件上传
- 等等。
- 我们也在努力将 O1 引入 API。
- 我们将为开发者添加新功能,例如结构化输出、函数调用、
- 开发者消息和 API 图像理解,我们认为你会非常喜欢这些功能。
- 我们预计这将是开发者的绝佳模型,它将真正开启你们可以构建的代理事物的全新领域。
- 我们希望你像我们一样喜欢它。
- 太棒了。
- 非常感谢你们。
- 祝贺你和团队完成这项工作。
- 我们真的希望你会喜欢 O1 和 Pro 模式或 Pro 级别。
- 我们还有很多东西要来。
- 明天我们将带着一些对开发者来说很棒的东西回来,我们将从那里继续前进。
- 在结束之前,我们能听听你的笑话吗?
- 可以。
- 我今天早上编了这个笑话。
- 笑话是这样的。
- 圣诞老人试图让他的大型语言模型做一道数学题,他不断提示
- 它,但它就是做不出来。
- 他最终是如何解决的?
- 不知道。
- 他用了驯鹿强化学习。
- 非常感谢。