亚马逊云科技：使用生成式AI的隐私和合规性问题

最新推荐文章于 2024-09-15 18:44:36 发布

taibaili2023

最新推荐文章于 2024-09-15 18:44:36 发布

阅读量947

点赞数 24

文章标签： aws

本文链接：https://blog.csdn.net/weixin_46812959/article/details/140254706

版权

关键字: [reInforce, Bedrock, Generative Ai Applications, Data Privacy, Compliance Considerations, Model Training, Legal Requirements]

本文字数: 1500, 阅读完需: 8 分钟

导读

在亚马逊云科技re:Inforce大会上,演讲者们阐述了”在确保生成式人工智能应用程序安全的同时,如何处理隐私和合规性问题”。他们探讨了在使用生成式人工智能应用程序时,如何应对数据隐私和合规性考虑。具体而言,他们解释了数据隐私考虑因素,如数据分类、访问控制和监管合规性,仍然适用于生成式人工智能应用程序,但在使用基础模型和微调方面存在一些细微差别。该演讲重点阐述了亚马逊云科技如何使客户在构建生成式人工智能应用程序时,能够解决数据隐私、透明度和可解释性、人工监管、监管分类、概况分析和安全性等方面的顾虑。

演讲精华

以下是小编为您整理的本次演讲的精华，共1200字，阅读时间大约是6分钟。

在错综复杂的生成式人工智能应用程序的织锦中,探索隐私和合规性考虑因素的迷宫是一项至关重要的努力。演讲者Maitreya Ranganath和Samuel Weymouth提供了宝贵的见解,引导人们通过一个被称为”生成式人工智能范围矩阵”的全面框架,阐述了五个不同的范围。

范围1,“消费者应用程序”,包括用户通过消费者条款和条件消费应用程序的情况,而没有与提供商建立正式协议。一个说明性的例子是,个人利用免费的消费者版ChatGPT进行实验。演讲者指出,许多客户将员工使用专有数据的范围1应用程序视为影子IT,由于缺乏涵盖此类用例的正式协议而引发了担忧。

范围2,“企业应用程序”,涉及组织与提供商建立企业协议的情况,使提供商能够在该协议的范围内向员工提供应用程序。一个相关的实例是,公司利用Salesforce的Einstein AI功能(包含生成式人工智能功能)供其员工使用。演讲者强调,在这种情况下,组织可以与提供商协商条款和条件,包括关于数据隐私和提供商如何利用收集的数据的规定。

进入范围3,“预训练模型”,我们遇到组织围绕从提供商处获得的现成预训练模型构建应用程序的情况,而不对模型本身进行修改。举例来说,一家汽车公司可能开发一款应用程序,让现场技术人员能够通过利用预训练的语言模型分析诊断代码并提供简洁的可操作总结,从而快速识别车辆问题的根本原因。

范围四,“微调模型”,涉及组织利用自身的专有数据对预训练模型进行定制或微调,旨在提高模型在特定用例中的性能表现。以汽车行业为例,该组织可能会选择通过向语言模型暴露行业特定术语和文本记录,从而增强模型对汽车领域的上下文理解能力。演讲者指出,亚马逊云科技服务(如Bedrock)支持此类微调功能,允许客户根据自身需求定制化模型。

矩阵的顶峰,范围五,“自训练模型”,包括组织从头开始训练自己的基础模型的场景,利用自行选择的数据。在这个范围内,组织承担起模型提供商的角色,对应用程序和支撑训练过程的数据拥有完全控制权。演讲者强调,亚马逊云科技服务(如SageMaker)可用于此范围内的训练工作,使组织能够构建满足其特定需求的模型。

在遍历这些范围的过程中,演讲者强调建立云中心卓越中心并与法律顾问合作的重要性。这个跨学科团队由来自法律、人力资源和信息技术等领域的利益相关者组成,是知情决策和项目监督的重要枢纽。

对于范围一和二,组织采购应用程序时,关键的隐私考虑因素包括了解允许的数据分类级别、控制对数据的访问、理解提供商如何利用输入和输出数据,以及遵守数据本地化要求。演讲者强调审查提供商的条款和条件的重要性,确保与组织政策和监管要求保持一致。

在范围3和4中,当组织使用预训练或微调的模型构建应用程序时,需要考虑额外的因素。对于数据检索技术(如Retrieval Augmented Generation,RAG)的访问控制变得至关重要,以防止未经授权访问敏感信息。此外,组织必须仔细评估模型提供商的数据处理实践,并审慎选择用于微调过程的训练数据。演讲者警告不要在微调数据中包含个人身份信息(PII),因为无法从训练好的模型中选择性地删除个人记录,需要重复整个微调过程。亚马逊云科技服务如Macie可以帮助发现和保护PII数据,而S3 Object Lambda则提供了在数据进入机器学习管道之前进行数据清理的功能。

当组织进入范围5时,成为模型提供商,自行训练基础模型,就会承担更多责任。组织必须解决训练数据的来源、清理和验证问题,确保遵守版权协议和负责任的人工智能实践。减轻有害偏见和误导性内容变得至关重要,因为训练基础模型所需的训练数据规模巨大。演讲者指出,目前有69个国家正在就人工智能制定超过1,000项法律,这凸显了监管环境的快速变化。

在整个讨论过程中,演讲者强调了既定的数据隐私和合规最佳实践的持久相关性,尽管对于大型语言模型的独特特性有一些细微差别。他们强调了与法律顾问接触、仔细审查提供商的条款和条件,以及根据风险级别勤勉评估监管分类的重要性。

透明度和可解释性成为了突出的主题,欧盟的人工智能法案(AI Act)成为了指导方针。向消费者披露人工智能互动、全面记录数据来源和模型创建过程,以及提供人工监督和申诉机制,成为了当务之急。演讲者强调确保个人权利受到保护的重要性,特别是在人工智能系统可能产生法律影响或歧视结果的情况下。亚马逊云科技服务,如SageMaker的Clarify功能,可以帮助统计分析模型性能,提供偏差率、虚构率和准确率等指标,有助于记录和透明度工作。

涉及个人数据的分析和自动决策,尤其是敏感特征,受到监管机构的严格审查。演讲者倡导谨慎的方法,强调只记录必要的数据,并咨询法律顾问来应对这些领域复杂的法规。

正如拜登总统的行政命令所概述的,当生成式人工智能应用与可能危及人身安全或财产的领域相交时,安全考虑就成为了重中之重。自动驾驶汽车和医疗保健领域的机器人伴侣被列为例子,在这些领域,严格的测试、独立验证和遵守安全协议至关重要。

在整个演讲过程中,演讲者提供了大量资源,包括来自监管机构、亚马逊云科技服务和合规框架的指南链接。这些资源对于组织在生成式人工智能的隐私和合规性复杂环境中导航提供了宝贵的帮助。值得注意的是,演讲者提到了ISO 24029-2001,这是ISO关于如何管理人工智能系统的标准,以及OECD的生成式人工智能法律网站,作为组织应该参考的有价值资源。此外,亚马逊云科技服务,如Audit Manager的生成式人工智能最佳实践框架,可以帮助证明在使用Bedrock等服务构建时遵守了最佳实践。

总的来说,演讲者们强调采用整体、跨学科的方法来应用生成式人工智能(Generative AI)应用程序的必要性,这种方法将技术创新与道德和监管要求相协调。通过遵循既定的最佳实践、聘请法律顾问,并培养负责任的人工智能开发文化,组织机构可以释放生成式人工智能的变革潜力,同时维护隐私、合规性和社会福祉的最高标准。

下面是一些演讲现场的精彩瞬间：

亚马逊云科技(亚马逊云科技)提供了多种服务,协助企业发现和保护个人身份信息,确保数据隐私合规,为机器学习数据管道做好准备。

在人工智能或生成式人工智能管道中,企业需要对所使用的数据来源进行分类和记录,并在模型训练过程中监控不同指标,如幻觉率和潜在偏差率。

ISO 24029-2001是一项相对新颖的ISO标准,旨在规范人工智能系统的治理。

Amazon SageMaker的Clarify功能可以使用SHAP或LIME等工具来统计分析模型的性能,包括测试偏差率、虚构率和整体准确性,从而为监管机构或审计人员提供有关模型控制、数据来源等方面的文件证明。

因此,重点是审视行政命令,它为企业提供了在这一领域的期望详细信息,并与法律顾问和云中心进行接洽,以确保为特定市场和消费者做出明智的决策。

总结

在这个富有洞见的会议中,演讲者深入探讨了在开发生成式人工智能应用程序时,数据隐私和合规性的重要考虑因素。他们介绍了一个范围矩阵,将AI用例分为五个范围,从消费者应用程序到自建基础模型。该框架可作为一种思维模型,用于分析与每个范围相关的独特隐私和合规性影响。

关键要点包括:

无论AI应用程序的范围如何,数据隐私都是一个至关重要的问题。建立良好的做法,如数据分类、访问控制以及了解数据使用和存储位置至关重要。值得注意的是,在微调或从头训练模型时,模型权重可能会保留敏感信息。
透明度和可解释性正成为世界各地AI法规中的关键主题。披露使用AI、记录数据来源和模型创建过程,以及启用人工监督和上诉机制对于合规至关重要。
自动决策和分析引发了对个人权利和潜在歧视的担忧。监管机构强调需要人工干预,特别是在具有法律影响的高风险应用程序中。
安全性考虑因素至关重要,尤其是对于如果失败可能危及生命或财产的AI系统。美国AI行政命令中概述了独立验证和严格测试的预期。

总的来说,信息强调了在组织内部参与法律顾问并建立云中心卓越中心的重要性。这个跨职能团队可以确保AI项目的范围正确、遵守相关法规,并根据目标市场和消费者群体做出明智的决策。