GPT-5要停？OpenAI凌晨发文回应：保障AI安全，我们没有「偷工减料」-CSDN博客

视学算法报道

来源：学术头条

编辑：好困

【导读】人工智能系统正在成为（人类）日常生活的一部分。关键问题是要确保这些机器与人类的意图和价值观保持一致。——Mira Murati，OpenAI CTO

近些天，对 OpenAI 来说，可谓是一个「多事之秋」。

由于 ChatGPT 及 GPT-4 可能引发的安全问题，OpenAI 受到了来自外界的一些指责和阻挠：

马斯克等上千人联名呼吁「所有人工智能实验室应立即暂停训练比 GPT-4 更强大的大模型，这一时间至少为 6 个月」；
意大利禁用 ChatGPT，OpenAl「必须在 20 天内通过其在欧洲的代表向他们通报公司执行这一要求而采取的措施」；
ChatGPT 大面积封号；
ChatGPT Plus 停售；
......

这些事件表明，尽管 AI 已经证明有能力为人类社会带来诸多好处，但技术总是一把双刃剑，也会为人类社会带来带来真正的风险，AI 也不例外。

4 月 6 日，OpenAI 官方发布了一篇名为「Our approach to AI safety」的博客文章，探讨了如何「安全地构建、部署和使用人工智能系统」的方法。

OpenAI 致力于保持强大的人工智能安全和（人类社会的）广泛受益。我们的人工智能工具为今天的人们提供了许多好处。

来自世界各地的用户告诉我们，ChatGPT 有助于提高他们的生产力，增强他们的创造力，并提供量身定制的学习体验。

我们也认识到，像任何技术一样，这些工具也有真正的风险——所以，我们努力确保在各个层面上将安全纳入我们的系统。

1. 建立越来越安全的人工智能系统

在发布任何新系统之前，我们都会进行严格的测试，让外部专家参与反馈，努力利用人类反馈的强化学习等技术改善模型的行为，并建立广泛的安全和监测系统。

例如，在我们最新的模型 GPT-4 完成训练后，我们所有员工花了 6 个多月的时间使其在公开发布前更加安全和一致。

我们认为，强大的人工智能系统应该接受严格的安全评估。需要有监管来确保这种做法被采纳，我们积极与政府接触，探讨这种监管可能采取的最佳形式。

2. 从真实世界的使用中学习，以改进保障措施

我们努力在部署前预防可预见的风险，然而，我们在实验室中能学到的东西是有限的。尽管进行了广泛的研究和测试，我们无法预测人们使用我们技术的所有有益方式，也无法预测人们滥用技术的所有方式。这就是为什么我们相信，随着时间的推移，从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的一个关键组成部分。

在有大量的保障措施下，我们谨慎地逐步发布新的人工智能系统，将其推送给一个稳步扩大的人群，并根据我们学到的经验不断改进。

我们通过我们自己的服务和 API 提供我们最有能力的模型，这样开发者就可以直接在他们的应用程序中使用这种技术。这使我们能够监测滥用情况并采取行动，并不断建立缓解措施，以应对人们滥用我们的系统的真实方式，而不仅仅是关于滥用可能是什么样子的理论。

现实世界的使用也使我们制定了越来越细微的政策，以防止那些对人们构成真正风险的行为，同时还允许我们的技术有许多有益的用途。

至关重要的是，我们相信社会必须有时间来更新和调整，以适应能力越来越强的人工智能，而且每个受这种技术影响的人都应该在人工智能的进一步发展中拥有重要的发言权。迭代部署帮助我们将各种利益相关者带入关于采用人工智能技术的对话中，比他们没有亲身经历过这些工具的情况下更有效。

3. 保护儿童

关于安全的一个关键工作是保护儿童。我们要求使用我们的人工智能工具的人必须是 18 岁或以上，或 13 岁或以上并得到父母的批准，我们正在研究验证选项。

我们不允许我们的技术被用来产生仇恨、骚扰、暴力或成人内容，以及其他（有害）类别。我们的最新模型 GPT-4 与 GPT-3.5 相比，对不允许的内容请求的回应率降低了 82%，我们已经建立了一个强大的系统来监控滥用。GPT-4 现在可供 ChatGPT Plus 用户使用，我们希望随着时间的推移，能让更多人使用。

我们作出了很多努力，尽量减少我们的模型产生伤害儿童的内容的可能性。例如，当用户试图向我们的图像工具上传儿童安全虐待材料时，我们会阻止这一动作，并向国家失踪和受剥削儿童中心报告。

除了我们的默认安全护栏外，我们还与非营利性的可汗学院等开发商合作--该学院建立了一个由人工智能驱动的助手，既是学生的虚拟导师，也是教师的课堂助手--为他们的使用情况定制安全缓解措施。我们还在开发一些功能，使开发者能够为模型输出设定更严格的标准，以更好地支持那些希望获得这种功能的开发者和用户。

4. 尊重隐私

我们的大型语言模型是在一个广泛的文本语料库上训练出来的，其中包括公开的、授权的内容，以及由人类审查者产生的内容。我们不使用数据来销售我们的服务、广告或建立人们的档案，我们使用数据来使我们的模型对人们更有帮助。例如，ChatGPT 通过对人们与它的对话进行进一步的训练来提高能力。

虽然我们的一些训练数据包括公共互联网上的个人信息，但我们希望我们的模型能够了解这个世界，而不是私人。因此，我们努力在可行的情况下从训练数据集中删除个人信息，对模型进行微调，以拒绝对私人信息的请求，并对个人提出的从我们的系统中删除其个人信息的请求作出回应。这些步骤最大限度地减少了我们的模型可能产生包括私人信息的内容的可能性。

5. 提高事实的准确性

大型语言模型根据它们之前看到的模式，包括用户提供的文本输入，预测、产生接下来的一系列的词。在某些情况下，下一个最有可能的词可能在事实上并不准确。

提高事实准确性是 OpenAI 和许多其他人工智能开发者的一个重要工作，我们正在取得进展。通过利用用户对被标记为不正确的 ChatGPT 输出的反馈作为主要数据来源，我们已经提高了 GPT-4 的事实准确性。与 GPT-3.5 相比，GPT-4 产生事实性内容的可能性增加了 40%。

当用户注册使用该工具时，我们努力做到尽可能透明，即 ChatGPT 可能不总是准确的。然而，我们认识到，要进一步减少出现幻觉的可能性，以及引导公众了解这些人工智能工具目前的局限性，还有很多其他工作要做。

6. 持续的研究和参与

我们认为，解决人工智能安全问题的实用方法是投入更多的时间和资源来研究有效的缓解措施和调整技术，并针对现实世界的滥用进行测试。

重要的是，我们认为，提高人工智能的安全性和能力应该齐头并进。迄今为止，我们最好的安全工作来自与我们能力最强的模型之间的合作，因为它们更善于遵循用户的指示，更容易引导或「指导」。

随着能力更强的模型的创建和部署，我们将越来越谨慎，随着我们人工智能系统的进一步发展，我们将继续加强安全防范措施。

虽然我们为了更好地了解 GPT-4 的能力、好处和风险，等了 6 个多月才将其部署，但有时可能需要比这更长的时间来提高人工智能系统的安全性。因此，政策制定者和人工智能供应商将需要确保人工智能的发展和部署在全球范围内得到有效的管理，没有人会为了尽快取得成功而「偷工减料」。这是一个艰巨的挑战，需要技术和制度上的创新，但这也是我们渴望做出的贡献。

解决安全问题也需要广泛的辩论、实验和参与，包括在人工智能系统行为的界限上。我们已经并将继续促进利益相关者之间的合作和公开对话，以创建一个安全的人工智能生态系统。

参考资料：

https://openai.com/blog/our-approach-to-ai-safety