使用亚马逊云科技Amazon SageMaker Clarify 评估大型语言模型

7d5a94da7c8103ee5fd70a7efe9d3722.jpeg

关键字: [SageMaker Clarify, Large Language Models, Foundation Model Evaluation, Generative Ai, Model Selection, Model Customization]

本文字数: 2100, 阅读完需: 10 分钟

导读

在本次演讲中,演讲者们介绍了如何利用 SageMaker Clarify 评估大型语言模型(LLM)的质量和责任性。他们阐述了 SageMaker Clarify 允许使用自动算法和人工评估来评估 LLM 的准确性、事实性、刻板印象和有害性。演讲重点关注了 SageMaker Clarify 如何能够缓解 LLM 的风险,如幻觉、偏见和隐私违规,确保负责任的 AI,并遵守 AI 法规。

演讲精华

以下是小编为您整理的本次演讲的精华,共1800字,阅读时间大约是9分钟。

在不断发展的人工智能领域,大型语言模型(LLMs)的出现为我们带来了新的可能性,但同时也带来了必须认真应对的重大挑战。这段视频首先强调了这些强大模型的潜在陷阱,例如幻觉——提供看似合理但实际上不准确的回应的倾向——以及延续了训练数据中存在的偏见和固有观念。

视频提供了一个臭名昭著的例子,其中一个领先的LLM错误地声称詹姆斯·韦伯太空望远镜拍摄了系外行星的首张图像,而实际上,这一开创性的发现是由欧洲空间局的超大型望远镜在十年前完成的。这一实例提醒我们注意LLMs产生看似可信但缺乏事实准确性的回应的潜在风险。

另一个令人担忧的例子涉及一个LLM根据种族和性别产生了一个歧视性函数,用于确定某个人是否适合成为科学家。具体而言,该模型的输出暗示,如果候选人是白人男性,他们将被视为合适的科学家,而任何偏离这些标准的情况都将导致负面评价。这一令人震惊的案例凸显了LLMs可能延续的偏见和固有观念,反映了它们训练数据中存在的固有偏见。

Amazon SageMaker Clarify 的主要产品经理 Mike Diamond 上台深入探讨了生成式人工智能所带来的风险,包括幻觉、固有观念、泄露私人信息、有毒输出和不准确性。他强调,在商业应用中,LLMs的不准确回应可能严重损害客户信任,并损害公司品牌声誉。在一个特别严重的例子中,提供领先LLM的一家公司的股价在一次演示中由于不准确的回应而下跌超过10亿美元。

随着欧盟人工智能法案和拜登总统最近签署的行政命令的出台,评估LLMs的潜在风险不再是一个简单的建议,而是对这些模型的提供者和消费者(尤其是在对个人产生重大影响的行业)的法律义务。

评估大型语言模型(LLM)是一项复杂且耗时的工作。随着数百种可用模型,以及在整个模型生命周期中需要持续评估的需求——从初始选择到定制和部署,这个过程充满了挑战。现有的学术基准测试虽然有价值,但需要高度专业的知识,并且通常无法提供与特定用例直接相关的见解。在一个引人注目的例子中,某团队试图在其环境中本地运行HELM(一个知名的基准测试网站),这需要超过100个大型实例,并运行了超过24小时。

为了应对这些挑战,亚马逊云科技宣布了SageMaker Clarify的Foundation Model Evaluations预览版,这是一项创新的功能,可在几分钟内评估任何LLM的质量和责任。这一创新解决方案提供了几个关键优势:

  1. 精心策划的开源数据集:亚马逊云科技精心策划了开源数据集,允许用户快速高效地开始评估。
  2. 定制的提示和数据:该解决方案旨在与用户特定的提示和数据无缝协作,确保评估结果针对每个用例的独特需求进行了量身定制。
  3. 算法和人工评估:认识到自动化和人工驱动评估的重要性,SageMaker Clarify支持这两种方法,提供了一个全面的评估框架。
  4. 可访问和可操作的科学:亚马逊云科技投入了大量努力,使严格的科学原理变得可访问和可操作,使用户能够利用前沿技术,而无需广泛的专业知识。
  5. SageMaker集成:Foundation Model Evaluations功能与亚马逊云科技的综合机器学习平台SageMaker紧密集成,实现了无缝的企业级MLOps能力。

这一创新解决方案的主要用例包括模型选择以及对提示工程、检索增强生成和微调等定制的评估。通过利用SageMaker Clarify,组织可以在整个模型生命周期中优化其LLM性能,确保负责任和准确的输出。

迈克·戴蒙德深入探讨了SageMaker Clarify解决方案的复杂特性和工作流程,强调了三种用户界面选项:SageMaker Studio中的专用UI、通过Python SDK运行处理作业的能力,以及一个开源库,可提供最大的灵活性和控制。

该解决方案支持一系列任务,包括文本生成、摘要、问答和分类。可以利用亚马逊云科技策划的内置数据集进行自动化评估,或者用户也可以提供自己的自定义数据集。评估涵盖了多个维度,如准确性、稳健性、事实性、固有观念和毒性,确保对大型语言模型(LLM)的性能进行全面评估。

这些评估的结果以详细的PDF报告的形式呈现,包括对指标的解释和解读,使用户能够基于对模型能力和潜在风险的透彻理解做出明智决策。值得注意的是,这些报告长达40页,提供了深入的分析和可视化,有助于解读评估结果。

亚马逊云科技生成式人工智能基础团队成员Emily Weber登台进一步阐明了评估在人工智能过程中的重要性。她强调,评估为生成式人工智能领域带来了定量指标和统计严谨性,使人们能够衡量和缓解偏差和质量缺陷等问题。Emily举例说明,当提示LLM创作一个关于曼哈顿医生的短篇小说时,它立即默认使用阳性代词,突出了模型输出中固有的偏差。

Emily强调了LLM定制生命周期,从最初的提示工程到检索增强生成和微调。她强调评估在优化这一过程的每个步骤中发挥着关键作用,提供了有价值的见解,为决策和资源分配提供了信息。值得注意的是,Emily建议提示工程通常是大多数组织的起点,因为它相对容易和经济高效,而检索增强生成和微调等技术逐渐增加了复杂性和开销。

在现场演示中,Emily详细介绍了在SageMaker中为Falcon 7B模型设置评估的过程,重点关注开放式生成任务。她配置了各种维度,包括固有观念和有害内容,利用内置数据集和自定义数据源。演示最终生成了详细的报告,包含可视化和对评估指标的解释,帮助用户对模型的性能和适用性做出明智决策。

Emily还展示了开源的fm-eval Python库,该库允许用户在本地或SageMaker管道中运行评估,有助于跨多个模型标准化治理流程。她展示了一个同时评估LLaMa 7B、Falcon 7B和微调后的LLaMa模型的示例管道,展现了该解决方案的灵活性和可扩展性。

Taren Hyalman,Indeed负责任AI团队的数据科学家上台分享了她团队在负责任AI和模型评估方面的观点和方法。她首先阐述了Indeed的使命是帮助人们找到就业机会,强调公司致力于为所有求职者提供机会。

Taren所在的团队隶属于Indeed的环境、社会和治理(ESG)组织,遵循”人才是普遍的,但机会并非如此”的指导原则。他们的努力集中在大规模提供机会的同时,确保求职者历史上面临的偏见和障碍不会因AI应用的部署而被强化或放大。

Indeed的AI开发遵循五项核心原则:以求职者为先、以公平和公正为中心、持续倾听并纳入客户和用户的反馈、在决策过程中保持人工监督,以及负责任地创新。

Taren的团队扮演双重角色,在整个开发生命周期中与开发团队合作,确保包容性数据收集、平衡数据集,并应用以人为本的设计原则。同时,他们也扮演”红队”的角色,进行独立的公平审计和评估,以确保符合监管要求,因为招聘是一个与医疗和金融类似的严格监管领域。

评估大型语言模型(LLM)为负责任的人工智能(AI)景观带来了新的复杂维度。他强调了几个关键的关注领域,包括歧视、有害内容、排斥、偏见、表征伤害、事实错误、虚假信息和隐私违规。为了确保负责任地部署生成式AI应用程序,必须仔细评估和缓解这些问题。

Indeed利用LLM执行各种任务,例如工作匹配、生成工作描述、为求职者和雇主创建聊天机器人,以及为求职者-工作匹配提供解释。他强调评估生成输出的实际性和有用性,以及检测和缓解跨人口统计群体的固有观念、有害内容和性能差异的重要性。

SageMaker Clarify Foundation Model Evaluations功能提供了一个强大的工具包来解决这些问题。他概述了如何使用事实知识和总结评估模块来评估生成内容(如简历摘要和工作描述)的实际性和有用性。此外,可以利用固有观念评估模块来识别和缓解有偏见的语言,而有害内容检测模型可以标记不当、仇恨或暴力的输出。

此外,可以将分类评估模块与Indeed的人口统计数据存储结合使用,以衡量不同群体之间的性能差异,确保LLM对不同背景的个人表现一致和公平。值得注意的是,Indeed的平台处理各种模型类型,包括二元分类、推荐和排名系统以及回归模型,每种模型都需要量身定制的评估方法来评估对用户的潜在影响。

总之,这段视频全面概述了亚马逊云科技SageMaker Clarify Foundation Model Evaluations功能,这是一种创新的解决方案,通过自动化指标、人工审查工作流程和与SageMaker的MLOps功能无缝集成的组合,使组织能够评估LLM的质量和负责任AI风险。

来自领先招聘平台INDEED的真实世界观点强调,在成功部署生成式人工智能应用程序时,进行负责任评估至关重要。通过解决诸如事实性、有用性、固有观念、有毒性和性能差异等问题,组织可以利用大型语言模型(LLMs)的强大功能,同时减轻潜在风险,确保所有利益相关方获得公平和包容的结果。

这段视频见证了人工智能领域迅速发展的格局,以及行业领导者为负责任部署这些变革性技术而共同努力制定健全的框架和最佳实践。

总结

  1. 大型语言模型(LLM)可能产生不准确、存在偏见或有害的输出,给使用它们的组织带来风险。因此,评估LLM的质量(准确性、事实性)和责任(偏见、有害性)至关重要。
  2. Amazon SageMaker Clarify的Foundation Model Evaluation功能允许用户在几分钟内使用精心策划的数据集和算法,评估任何LLM的质量和责任。它支持自动的基于指标的评估和人工评估。
  3. 评估过程包括选择模型、任务类型(如文本生成、摘要)和评估维度(如事实知识、刻板印象)。用户可以利用内置数据集或提供自己的数据。
  4. 该功能与Amazon SageMaker服务集成,实现企业级模型运维。它生成详细报告,以帮助决策和合规。
  5. 用例包括模型选择、优化(如提示工程、微调)以及整个模型生命周期的监控。评估有助于降低成本、促进迁移并实现负责任的AI治理。

该演讲强调了负责任AI实践的重要性,并提供了Indeed如何评估LLM在求职匹配应用中的公平性、事实性和适当性的见解。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。

  • 20
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值