一文快读OpenAI发布的GPT4.0


Day 1:一天了解一个大模型 - GPT-4.0

简介

它作为OpenAI旗舰级的语言模型,也是当今最好的大模型

所属公司: OpenAI

发布时间: 2023 年,GPT-4.0是在GPT-3成功之后不久由OpenAI推出的

较GPT-3.5,更能处理更复杂和微妙的指令

在一次性的对话中,GPT-3.5和GPT-4之间的区别可能不太明显。

但当任务的复杂性达到一定阈值时,差异就显现出来了——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更加微妙的指令。

以MMLU基准进行测试,优于 GPT-3.5和 SOTA

使用 Azure Translate 将 MMLU 基准(一套涵盖 57 个科目的 14,000 个多项选择题)。在测试的 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英语语言性能。

支持图文解读与对话,以及知识推理

举例:这张图有意思的点在哪里?逐个描述。

回答:图片展示了一个“闪电转接头”包装的三个面板。 第一个面板:一部智能手机,其充电端口插入了一个VGA连接器(一个大型的、蓝色的、通常用于电脑显示器的15针连接器)。 第二个面板:带有VGA连接器图片的“闪电转接头”包装。 第三个面板:VGA连接器的特写,末端是一个小型的闪电连接器(用于给iPhone和其他苹果设备充电)。 这张图片的幽默之处在于,将一个大型、过时的VGA连接器插入一个小型、现代智能手机的充电端口,这种荒谬的对比产生了幽默效果。

而且 openAI 还发现,在一些指定的特殊领域任务上,GPT-4 表现超出想象,他们计划在下一阶段进行深入分析。如下图

更好的角色扮演:苏格拉底风格的导师

局限性,还是“幻觉”太多

与早期 GPT 模型类似,它仍然不完全可靠——它“幻觉”事实并犯推理错误。

但 GPT-4 相对于以前的模型(其本身在每次迭代中都在改进)显着减少了幻觉。

在内部对抗性事实评估中,GPT-4 的得分比最新的 GPT-3.5 高 40%:

应对措施

利用专家对抗性测试,来提高模型的安全性

OpenAI聘请了来自 AI 一致性风险、网络安全、生物风险、信任与安全以及国际安全等领域的 50 多名专家来对模型进行对抗性测试。并将这些专家的反馈和数据被纳入模型的迭代和改进中。例如,我们收集了额外的数据来提高 GPT-4 拒绝有关如何合成危险化学品的请求的能力。

在RLHF训练中加入安全奖励,提高拒绝有害请求的能力

GPT-4 在 RLHF 训练期间纳入了额外的安全奖励信号,通过训练模型拒绝此类内容的请求来减少有害输出。奖励由 GPT-4 零样本分类器提供,数据来源于收集不同的数据集(例如,标记的生产数据、人类红队、模型生成的提示),并对两者应用安全奖励信号(具有正值或负值)允许和禁止的类别。


与 GPT-3.5 相比,GPT 对禁止内容请求的响应率降低了 82%,

与 GPT-3.5 相比,GPT 对敏感信息请求的响应率(如医疗建议等)降低了 29%,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰淇淋百宝箱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值