在整个课程中,您已经学习了跨生成式人工智能项目生命周期的基本概念和应用技巧。LLM 驱动的应用程序仍处于初始阶段,研究人员几乎每天都在宣布新的改进性能和可靠性的技术或策略。当然,本课程只包括了发布时所知或了解的内容,但我们有信心这一领域将继续迅速发展。让我们重点介绍一些活跃研究领域。
随着人工智能的增长,人们认识到我们必须负责任地使用它。我邀请了我的AWS同事,Dr. Nashlie Sephus,与我一起讨论负责任的人工智能,特别是在大型语言模型的生成式人工智能背景下。Nashlie博士是AWS的Amazon AI首席技术传道者。在这个角色中,她专注于公平性和准确性,以及识别和减轻人工智能中的潜在偏见。她以前曾在亚特兰大领导亚马逊视觉搜索团队。有趣的是,该团队推出了亚马逊购物应用程序上的零件放置视觉搜索。Nashlie,非常感谢您今天加入我,讨论负责任的人工智能。
谢谢您邀请我参加。
鉴于您目前在领域中看到的情况,特别是在大型语言模型的生成式人工智能背景下,负责任的人工智能存在哪些新的风险和挑战?
这是一个很好的问题,因为存在许多挑战。让我们重点关注三个。首先是毒性,第二个是幻觉,第三个是知识产权问题。
也许我们可以从您提到的第一个挑战开始,毒性。您能否详细描述一下这个挑战?您有什么建议,从业者如何可以减轻它?
当然,毒性在本质上意味着某些语言或内容可能对某些群体,特别是边缘化群体或受保护群体,具有有害或歧视性。因此,我们可以从训练数据开始。正如您所知,这是每个人工智能的基础。所以,您可以从筛选训练数据开始。您还可以训练防护模型来检测和过滤训练数据中的任何不需要的内容。我们还要考虑在训练数据和训练注释方面涉及的人工标注的数量。我们要确保向那些标注者提供足够的指导,还要有一个非常多样化的标注者群体,我们在培训他们时要教育他们如何提取某些数据或如何标记某些数据。
合理,我认为您刚刚提到的一个重要点是,在人类标注者中具有多样性真的很重要。那幻觉呢?
幻觉,我们考虑那些根本不真实的事物,或者可能看起来是真实的,但实际上不是。这在生成式人工智能的背景下意味着什么,由于我们培训大型语言模型或者一般的神经网络的方式,我们往往不知道模型实际学到了什么。有很多时候,我们不知道模型正在尝试填补数据缺失的地方。而这通常导致虚假陈述或幻觉。所以我们可以做的一件事是,教育用户,告诉他们这是这项技术的现实,添加任何免责声明,以便他们知道应该注意什么。此外,您可以使用独立和经过验证的来源来增强大型语言模型,以便与您获得的数据进行双重检查。您还要确保制定方法,以将生成的输出归因于特定的训练数据片段,以便我们始终可以追溯到信息的来源。最后但同样重要的是,我们要确保我们定义了预期用例与非预期用例之间的区别。因为由于可能会出现幻觉,我们要确保用户了解和透明地了解这些技术是如何运作的。
明白了。我认为教育确实很关键。您提到的第三个挑战是知识产权。您在这方面有什么看法?
这是一个肯定需要解决的问题,因为它基本上意味着人们正在使用从这些AI模型返回的数据。这可能包括剽窃他人以前的工作,或者可能涉及已经存在的作品和内容的版权问题。因此,这将随着时间的推移,通过不仅仅是技术,还有政策制定者和其他法律机制的混合方式来解决。此外,我们要纳入一种治理体系,以确保每个利益相关者都在短期内采取必要的措施,以防止这种情况发生。还有一种名为“机器去学习”的新概念,它涉及减少或移除受保护内容或其对生成式AI输出的影响。这只是一种在目前研究中非常原始的方法。我们还可以采用过滤或屏蔽方法,将生成的内容与受保护内容和训练数据进行比较,如果太相似,就在呈现给用户之前对其进行抑制或替换。
明白了。现在,从项目的角度看,您可以给从业者提供什么建议?如何可以负责任地构建和使用生成式AI模型?
很高兴您提出了这个问题。定义用例非常重要,用例越具体、越狭窄越好。我们有一个实际例子,我们使用生成式AI来测试和评估系统的稳健性,这是在涉及面部识别系统时。我们实际上使用生成式AI来创建不同版本的面部。例如,如果我要测试一个使用我的面部解锁手机的系统,我希望确保我测试不同版本的我的面部,包括长发、短发、戴眼镜、化妆、不化妆等。我们可以使用生成式AI来实现这种规模化测试。这是一个示例,说明了我们如何使用它来测试稳健性。此外,我们要确保评估风险,因为每个用例都有自己的一套风险。有些可能更好,有些可能更糟。此外,评估性能实际上是数据和系统的功能。您可能有相同的系统,但在不同类型的数据测试下,可能表现得非常出色,也可能表现得非常糟糕。此外,我们要确保在整个AI生命周期中进行迭代。这不是一次性的事情。创建AI是一个持续的迭代周期,在概念阶段、部署阶段以及随着时间的推移进行监控时,我们要负责任。最后但同样重要的是,我们要在整个生命周期中发布治理政策,并为每个相关方实施责任措施。
Nashlie,这真的非常有帮助,我还喜欢您提到生成式AI可能成为解决方案的一部分,有助于创建更多样化的数据。在我们结束之前,我知道现在这个领域正在发生很多事情,但研究界正在积极研究的一些话题,您觉得令人兴奋的有哪些?
我认为有很多。有很多话题,这也是为什么这个领域每天都在不断发展。其中有水印和指纹识别,这是一种在内容或数据中包含印记或签名的方式,以便我们可以随时追溯。我认为还有一种模型,可以帮助确定内容是否是使用生成式AI创建的,这也是一个新兴的研究领域。所以,这是一个非常令人兴奋的时刻。我认为人工智能的未来是可访问的、包容的,我很期待即将发生的创新。
我也是。非常感谢Nashlie。谢谢您分享有关负责任AI这一重要主题的想法和实际建议。
Reference
https://www.coursera.org/learn/generative-ai-with-llms/lecture/moMCz/responsible-ai