负责任的生成式人工智能:评估最佳实践和工具
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Generative Ai Evaluation, Responsible Ai Framework, Model Evaluation Metrics, Launch Confidence Assessment, Evaluation Dataset Design]
导读
随着基于大型语言模型(LLMs)构建的应用程序日益普及,包括检索增强生成(RAG)、智能代理和安全防护等功能,一个负责任的评估过程对于衡量性能和降低风险变得至关重要。本次会议将介绍负责任评估的最佳实践。了解可用于评估过程的开放访问库和亚马逊云科技服务,并深入探讨设计评估计划的关键步骤,包括定义用例、评估潜在风险、选择指标和发布标准、设计评估数据集,以及解读结果以采取可行的风险缓解措施。
演讲精华
以下是小编为您整理的本次演讲的精华。
这次演讲由亚马逊云科技的解决方案架构师Alessandro Cerre发起,他阐述了模型评估对于负责任的生成式人工智能的重要性。他的同事Matrimonfort将在演讲后期深入探讨这一主题。
Alessandro首先解释了讨论生成式人工智能的原因。尽管人们对生成式人工智能及其潜力感到兴奋,但同时也出现了一种新的风险类别,需要负责任地采用这项技术。为了说明这一点,他将经典机器学习与生成式人工智能进行了对比。
在经典机器学习中,Alessandro解释道,范围通常较窄,从业者可以完全控制用于生成模型的数据、架构和整个流程。相反,生成式人工智能通常由基础模型驱动——这些模型是在极大的数据集上训练的庞大模型,由于需要大量的时间和资源投入,很少有组织会自行完成这一过程。因此,大多数应用程序都依赖于利用这些预训练的基础模型,这意味着无法完全控制输入,从而也无法控制输出。
这种缺乏控制,加上生成式人工智能输出可能是非结构化和复杂的,导致了一种新的风险。Alessandro强调了“幻觉”或“杜撰”的现象,即模型可能会生成与现实不符或与应用程序预期目的不符的内容。
为了减轻这些风险,Alessandro指出出现了所谓的“模式架构”——这些方法涉及注入额外信息以控制生成的输出,或编排多个模型。这种演变导致生成式人工智能应用程序的复杂性不断增加,现在这些应用程序通常包含连接数据源、防护措施和特定编排。此外,这些应用程序中的许多组件,包括防护措施本身,都是由生成式人工智能模型驱动的。
随着这些应用程序的复杂性增加,所涉及的模型数量也在增加。Alessandro通过展示Hugging Face Model Hub上大量可用的模型来说明这一点,并指出模型数量仍在快速增长。
这种增长给开发人员和产品团队带来了一个难题:他们必须在确保每个组件的安全性和可靠性与努力将应用程序投入生产之间寻求平衡。Alessandro直白的建议是“在整个应用程序生命周期中,从开发到生产和监控,以一种连贯、全面的方式进行测试和评估”。
Alessandro随后概述了构建评估过程的计划。第一步是了解应用程序的目的、特定主题或行业固有的风险以及正在处理的数据。这种理解为第二步奠定了基础:创建风险评估。第三步是根据已识别的风险设计全面的评估策略。
深入探讨评估的各个维度,Alessandro将它们分为四个领域:质量(或准确性和性能)、延迟、成本和置信度。尽管质量和应用程序执行预期功能的能力至关重要,但延迟、成本和置信度也是至关重要的考虑因素。
在置信度方面,Alessandro强调了特定框架(如负责任人工智能框架的八大支柱)的重要性。尽管他没有详细阐述每一个支柱,但他承认它们的复杂性,并且它们包括技术和实践两个方面。
Alessandro接着概述了评估的架构,其中涉及访问要评估的模型和应用程序、数据、输入工程、跟踪工具和评估工具。他强调了将潜在的非结构化输出转换为可测量指标的挑战,并讨论了解决这一挑战的不同方法。
第一种方法是人工评估,通常在原型阶段使用,但很难扩展。第二种方法是自动评估,可分为两大类:启发式指标和使用生成式人工智能模型作为评判者(称为“LLM作为评判者”或“AI评论家”)。
启发式指标依赖于标准语言处理工具从非结构化系统生成指标,而使用生成式人工智能模型作为评判者则可以捕获被评估系统更复杂、更细微的特性。然而,后一种方法需要谨慎考虑,以避免偏差,例如语言模型倾向于偏好自己的输出。
Alessandro接着讨论了定量和定性指标的范围,强调这两种类别并不互斥,通常会结合使用,尤其是在复杂的架构中。他还提到了一些特定于负责任人工智能的指标,这些指标可能有助于符合法规。
在评估应用程序时,Alessandro区分了组件分析(类似于单元测试)和端到端测试(类似于集成测试)。在应用程序开发生命周期的不同阶段,适当的方法可能会有所不同。
专门针对评估大型语言模型(LLM),Alessandro承认公共基准测试对于初步模型选择很有用,但警告说它们可能无法准确反映特定的应用程序、用例或延迟要求。然后,他介绍了由亚马逊云科技社区开发的工具,用于从客户端测量延迟、吞吐量和性能。
对于性能评估,Alessandro重点介绍了Amazon Bedrock Model Evaluation,这是一项托管服务,允许评估通过Bedrock提供的模型。他指出,最近增加了使用LLM作为评判者进行评估的功能,从而可以测量更广泛的指标,包括与忠实度、真实性、有害性和陈规性相关的指标。此外,Bedrock Model Evaluation还支持人工评估工作,并可比较不同评估方法的结果。
对于未托管在Bedrock上的应用程序,Alessandro推荐了开源的Foundation Model Evaluation包,该包可以集成到CI/CD管道或笔记本中。他强调使用代表性数据集的重要性,因为公共数据集可能已在模型训练过程中遇到过。
关于检索增强生成(RAG)应用程序的评估,Alessandro提到了标准指标(如召回率)的可用性,以及针对生成式人工智能组件和搜索与检索的语义方面的特定指标。他指出,Bedrock现在支持RAG评估,包括负责任人工智能指标,而开源库(如RAG)也可以使用,尽管需要做更多工作来确保与LLM评判者保持一致。
对于代理评估,Alessandro承认缺乏标准做法,每个客户都采用自己的方法。他推荐了Agent Evaluation Framework,这是一个由亚马逊云科技社区主导的应用程序,旨在进行多轮并发评估,并与CI/CD工具集成。
在这个时候,Matrimonfort接手讨论为生成式人工智能应用程序建立发布信心。他强调定义一个狭隘的用例的重要性,因为所有后续的选择都源于这一定义。Matrimonfort举例说明了一个通用用例(为广泛人群撰写产品描述),并将其与一个更具体的用例(说服特定受众购买特定产品)进行对比。后者可以更好地理解潜在风险以及用户将如何与系统交互。
一旦定义了用例,下一步就是根据负责任人工智能的维度评估潜在风险。Matrimonfort深入探讨了其中一些维度,强调需要捕获与真实性、稳健性(相似性、相关性、连贯性、忠实度)、隐私和安全性(PII泄露)以及安全性(有害输出、越狱、有害性)相关的指标。
Matrimonfort强调了考虑公平性(特别是人口统计偏差)的重要性,并衡量不同人口统计群体的性能。他介绍了最小最大公平性的概念,其目标是最小化跨群体的最大误差,并讨论了为指标(如有害生成率)设置可接受的最大值。
设置发布标准需要从风险严重性和可能性出发反向推理,对于严重风险采取更严格的标准。Matrimonfort以有害生成率为例,说明了解释跨人口统计群体的性能、考虑置信区间和假设检验的不确定性的重要性。
设计具有代表性的评估数据集至关重要,因为性能取决于应用程序、测试数据集、指标和风险维度。Matrimonfort强调,在部署系统时,评估系统在准确代表目标用例的数据上的性能非常重要,以避免不确定性。
可以使用Foundation Model Evaluation和Amazon Bedrock Model Evaluation等工具生成指标。然而,Matrimonfort花费了大量时间讨论正确解释结果,因为这是许多团队所挣扎的领域。
他强调需要通过置信区间和假设检验来捕获不确定性,而不是仅仅依赖点估计或均值。Matrimonfort通过计算置信区间、单侧置信区间和假设检验的示例,来确定性能满足发布标准的置信水平是否跨越人口统计学群体。
透明度报告和亚马逊云科技 AI服务卡被提出作为通过传达评估结果、局限性和注意事项来建立客户信任的方式。
在发布置信度较低的情况下,Matrimonfort讨论了识别低置信度来源、实施缓解措施(如亚马逊Bedrock GuardRails进行有害内容过滤)的必要性,以及持续重新评估的需求,可能需要从头开始重新审视整个评估过程。
演讲最后简要回顾了所涵盖的关键要点,并建议通过调查提供反馈。
在整个演示过程中,Alessandro和Matrimonfort强调了负责任地采用生成式人工智能、严格的评估实践以及通过全面了解风险、代表性评估数据集和谨慎解释结果(同时考虑不确定性)来建立发布置信度的重要性。
下面是一些演讲现场的精彩瞬间:
演讲者介绍了他们的同事Matrimonfort,并概述了他们将要讨论的主题,包括评估大型语言模型、理解风险、缓解风险,以及获得部署生成式人工智能应用程序的信心。
演讲者讨论了用于生成式人工智能模型的两大类自动评估方法:使用标准语言处理工具的启发式指标,以及使用生成式人工智能模型本身作为评判者或评论者。
强调了使用大型语言模型(LLM)作为评判者评估复杂系统的重要性,同时承认存在潜在偏差,需要谨慎的缓解策略。
演讲者解释了如何测量差异并形成跨群体的联合信心,建议采用这种方法来评估和解释结果。
亚马逊云科技推出了Amazon Bedrock Guard Rails,这是一种强大的工具,可以过滤大型语言模型应用程序中的有毒输入和输出,确保安全和负责任的人工智能生成。
演讲者总结了所讨论的关键要点,包括评估大型语言模型、亚马逊云科技工具、评估注意事项以及建立发布信心策略,强调了这些领域对团队和构建者的重要性。
Jeff Bezos强调亚马逊云科技对负责任人工智能的承诺,并指导观众访问负责任人工智能网页,该网页提供了有关服务卡、博客文章、风险评估以及团队在道德人工智能开发方面的方法的详细信息。
总结
在这篇全面的叙述中,演讲者深入探讨了评估生成式人工智能模型和应用程序的复杂领域。他们强调了负责任的评估实践在减轻风险和增强成功部署生产环境的信心方面的关键作用。
叙述首先强调了生成式人工智能的变革潜力,同时承认伴随而来的风险和负责任采用的必要性。随后,它深入探讨了评估的各个维度,包括质量、延迟、成本和信心,特别强调了负责任人工智能框架的八大支柱。
演讲者概述了一种结构化的评估方法,包括获取模型和数据、输入工程、跟踪工具和评估工具。他们探讨了各种评估技术,包括人工评估、启发式指标以及利用生成式人工智能模型作为评判者。该叙述还研究了评估真实性、稳健性、隐私性、安全性、安全性和公平性的具体指标。
在过渡到应用程序生命周期时,演讲者讨论了组件分析和端到端评估策略。他们强调了明确狭隘的使用案例、评估风险、选择适当的指标、设置发布标准、设计具有代表性的评估数据集以及通过严格的统计方法(如置信区间和假设检验)解释结果的重要性。
该叙述强调了捕获不确定性、测量差异以及利用所有可用证据(包括透明度报告和亚马逊云科技人工智能服务卡)的重要性。它还涉及缓解策略,如过滤提示和生成,以及在实施缓解措施后进行迭代评估的需求。
最后,演讲者强调了负责任的评估实践在建立发布信心、减轻风险和增强对生成式人工智能应用程序的信任方面的至关重要性。他们鼓励观众参与并提供反馈,以进一步完善和增强这些实践。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。