基于亚马逊云科技构建具有 PathAI 的安全 MLOps 管道

最新推荐文章于 2024-10-18 10:09:40 发布

taibaili2023

最新推荐文章于 2024-10-18 10:09:40 发布

阅读量1k

点赞数 28

文章标签： aws

本文链接：https://blog.csdn.net/weixin_46812959/article/details/140139108

版权

关键字: [reInforce, Path AI, Secure Mlops Pipeline, Machine Learning Operations, Data Protection Controls, Model Development Practices, Model Monitoring Techniques]

本文字数: 2300, 阅读完需: 12 分钟

导读

在一场亚马逊云科技的活动中,演讲者展示了”构建一个安全的MLOps管道,并融入Path AI”。在这个演讲中,演讲者阐述了如何在亚马逊云科技上构建一个安全的MLOps管道。他详细解释了,需要解决MLOps管道不同阶段的安全挑战,如数据准备、模型构建、模型评估、模型选择、部署和监控中的数据投毒、模型反演和敏感数据保护等问题。该演讲重点介绍了Amazon SageMaker以及各种亚马逊云科技安全和合规服务如何实现数据保护、安全模型开发、安全模型部署和监控,以及MLOps的安全访问管理。

演讲精华

以下是小编为您整理的本次演讲的精华，共2000字，阅读时间大约是10分钟。

在不断发展的机器学习领域中,出现了一种新的范式转变,将安全无缝地融入到开发生命周期的核心中。这种方法被称为MLSecOps,是创新的引领者,引导组织走向一个前沿技术与强大安全并存的未来。

这一旅程始于亚马逊云科技首席解决方案架构师Raghu Sora Bastina,他专精于云安全、数据分析和机器学习领域。凭借对这些领域内在联系的深刻理解,他为全面探索MLOps(机器学习运维)及其与安全的内在关系奠定了基础。

正如Raghu所阐述的,MLOps是机器学习工程的核心职能,专注于将机器学习模型投入生产、维护和持续监控的流程。然而,MLOps不仅仅是技术,更是一种协作努力,是人、流程和技术共同演绎的交响乐。

Raghu清晰地区分了MLOps与其前身DevOps,强调了MLOps独特的挑战和特征。虽然代码版本控制、制品版本控制、CI/CD和持续监控是共同点,但MLOps引入了新的维度,如模型构建、模型部署工作流、模型重新训练和模型系谱。

MLSecOps的概念作为MLOps的自然延伸而出现,强调从机器学习生命周期的最早阶段就融入安全。Raghu强调了促进安全团队、数据科学家和ML工程师之间协作的重要性,主动解决漏洞,维护模型和数据的机密性,并创建一条通往生产环境的一致、可靠和可审计的路径。

当Raghu深入探讨MLOps管道的细节时,他揭示了一个精心编排的阶段序列,每个阶段都有自己的一系列安全挑战和解决方案。管道从数据准备开始,为机器学习模型奠定基础。在这里,数据污染、模型反演、加密和敏感数据保护成为关键问题,需要实施强大的安全措施。

拉古向观众全面介绍了一系列亚马逊云科技服务,旨在应对数据安全和模型安全等挑战。在数据保护方面,他介绍了亚马逊云科技 KMS 用于数据加密、Amazon S3 Object Logs 和 S3 Versioning 用于数据保护、亚马逊云科技 Network Firewall 和 Amazon VPC 用于数据外泄控制,以及 Amazon Macie、SageMaker Data Wrangler 和 Amazon Comprehend 用于敏感数据保护。

在模型构建阶段,在私有网络内开发模型变得至关重要,以缓解模型反演攻击。拉古强调使用 Amazon Inspector 和 Amazon ECR 扫描第三方软件,并利用软件材料清单 (SBOM) 来获得对开源组件的可见性。

随着管道的推进,模型选择阶段成为一个关键时刻,维护模型元数据、版本和审批成为优先事项。拉古介绍了 Amazon SageMaker Model Registry 作为一个强大的工具来管理这些方面,实现无缝的模型评估、选择和部署。

部署阶段带来了模型投毒的威胁,需要通过亚马逊云科技 IAM 和 Access Analyzer 实施严格的访问控制,以及通过亚马逊云科技 Verified Access 实现细粒度的访问管理。通过 Amazon API Gateway 和亚马逊云科技 Lambda 实现的速率限制进一步加强了对潜在威胁的防御。

拉古的专业知识在于他深入探讨了如何通过 SageMaker Lifecycle Scripts 安全地引入软件库,以及通过服务控制策略保护模型,确保即使在凭证被入侵的情况下,模型的完整性也能得到保证。

最后的监控阶段成为 MLOps 管道的哨兵,持续评估已部署模型的质量和性能。拉古介绍了 SageMaker Model Monitor 和 Amazon SageMaker Clarify 的强大功能,它们提供实时监控、警报和对模型指标和潜在偏差的洞察。

为进一步加强安全态势,拉古倡导实施预防和检测控制,利用 Amazon GuardDuty、Amazon Security Hub、Amazon Detective 和 Amazon Security Lake 的功能。这些服务协同工作,持续监控威胁、汇总安全发现、识别根本原因并得出以人为中心的洞察。

拉古强调了身份和访问管理在整个机器学习管道中的重要性,并强调需要建立健全的控制措施。他介绍了SageMaker Domains的概念,该概念可实现资源隔离,并在单个亚马逊云科技账户中创建独立的域。Role Manager功能可简化角色创建过程,满足机器学习管理员角色、数据科学家角色和MLOps角色等不同角色的需求。

拉古还强调了IAM Identity Center强大的功能,它可通过SAML联合身份验证为企业用户提供访问权限,与Azure AD或Ping Identity等身份提供商无缝集成。通过合理应用SageMaker和Service Control Policies,可实现细粒度访问控制,确保只有真正需要访问权限的人员才能获得访问权限。

随着演示的进行,拉古展示了一个参考架构,该架构体现了MLOps的最佳实践。该架构将开发、暂存和生产环境分离到不同的账户中,利用亚马逊云科技CodePipeline进行模型推广,利用SageMaker Pipelines进行模型重新训练。基线模型位于SageMaker存储桶中,通过集成SageMaker Model Monitor和Amazon EventBridge,可实现持续评估和重新训练。

拉古的专业知识还得到了来自Path AI代表Harsha分享的见解和经验的补充。Path AI是一家成功在亚马逊云科技上构建其数字病理学AI产品并实施MLSecOps实践的公司。Path AI利用亚马逊云科技KMS、Amazon S3 Object Lock、Amazon Macie、Snyk、Amazon S3、CloudWatch、亚马逊云科技CloudTrail、Amazon GuardDuty、亚马逊云科技Security Hub和亚马逊云科技IAM Identity Center等服务,在MLOps生命周期的各个阶段解决安全考虑因素。

Harsha首先介绍了病理学领域,即通过显微镜检查组织来诊断疾病(如癌症)的研究。他强调了病理学家面临的挑战,他们必须仔细审查患者样本中数百万个细胞,这是一个高度主观且耗时的过程。

路径人工智能公司(Path AI)于2016年成立,其使命是开发人工智能产品和解决方案,以支持生物制药和实验室客户,利用机器学习的力量协助病理学家从病理图像中获取见解。Harsha作为2017年第四位加入的员工,使他能够为这一使命做出重大贡献,将Path AI定位为提供人工智能和数字病理学解决方案的全球领导者。

在这一领域开发端到端的人工智能产品是一项复杂的工作,因为每个患者图像都包含数百万个细胞,需要开发多个大规模的人工智能模型来处理诸如组织识别、正常和癌症区域分类、癌细胞和免疫细胞检测以及它们之间的相互作用等单个任务。

Path AI概述了其模型开发过程,该过程遵循标准方法,同时融入了关键差异。数据集创建涉及处理千兆像素图像和复杂的临床元数据,构成了一个大规模的数据问题。模型训练依赖于开源和最先进的方法来开发一流的模型,而模型评估则利用多位病理学家的意见来创建黄金标准共识,以评估模型质量和性能。

一旦模型得到开发并获得专家病理学家的批准,它们就会通过Path AI的人工智能平台部署到现实世界中,病理学家可以在该平台上上传患者组织样本、运行不同的模型,并对模型输出提供反馈。这种反馈循环对于迭代模型改进和提高实际场景中的准确性至关重要。

为了实现其业务目标,Path AI认识到在三个关键领域实施MLSecOps最佳实践的重要性:可扩展和安全的数据管道、大规模基础模型开发和适应以及高效的模型部署和监控。

Harsha深入探讨了Path AI在MLOps生命周期的各个阶段所采用的安全考虑和最佳实践,与Raghu提出的框架保持一致。在数据准备阶段,数据投毒是一个关键问题,通过使用亚马逊云科技KMS、Amazon S3 Object Lock和Amazon Macie来实现数据保护和跟踪。

在模型构建阶段,Path AI使用Snyk对第三方软件包和代码库进行常规漏洞检查,从而在生命周期的早期阶段缓解潜在的风险。

模型选择过程包括模型跟踪、生成指标以及创建带有元数据的模型清单,以确保一致性和新鲜度。Path AI 利用 Amazon S3 和 CloudWatch 进行对象跟踪和监控。

在部署阶段,Path AI 实施 CI/CD 管道,安全地将研究模型从研究账户转移到生产账户,供病理学家访问。公司采用 Amazon CloudTrail、Amazon GuardDuty 和 Amazon Security Hub 进行端到端的 ML 模型可审计性和安全监控。

在整个生命周期中,Path AI 通过使用 Amazon IAM Identity Center 确保适当的特权访问管理,遵守最小特权原则和数据完整性。

Harsha 介绍了一个高级架构,将整个管道分为三个不同的账户:研究、过渡和生产。ML 工程师在研究账户中训练和评估模型,利用专家病理学家的反馈。经过批准的模型被打包为 Docker 镜像,并通过 CI/CD 管道发送到过渡账户,与 Path AI 的分发平台 AISite 进行集成测试。一旦模型满足性能、周转时间和成本要求,它们就会被提升到生产账户,供病理学家在日常研究中访问和使用。

Harsha 分享了令人印象深刻的指标,凸显了 Path AI MLOps 实施的规模,已处理超过 150 万张全滑片图像,为模型训练收集了 2400 万个注释,运行了超过 25 万次模型训练实验,并在 30 多个端到端 AI 产品中部署了 200 多个机器学习模型用于研究。

有意遵循 MLSecOps 实践所取得的业务成果是显著的。Path AI 加快了开发周期,通过提高开发人员效率,将从概念到原型的时间从数月缩短到数周。通过 CI/CD 工作流,100% 的模型交付从研究到生产已标准化,减少了错误和问题。

通过在过渡账户中进行通用的模型打包和测试实践,提高了生产中 ML 产品的可靠性和安全性,将移动和测试模型的时间从数周缩短到数天。最值得注意的是,Path AI 通过在 ML 生命周期的早期阶段解决漏洞,在其 ML 产品中实现了零关键或高风险漏洞。

在演讲临近尾声时,Raghu强调了在机器学习生命周期的早期阶段引入安全性的重要性,并倡导采取循序渐进的方式,从单一的业务用例开始,然后在整个组织内逐步扩展MLSecOps实践。他强调了使用亚马逊云科技KMS和客户管理的密钥进行数据加密的关键性,通过最小特权访问控制确保数据可访问性,并使用亚马逊云科技Config、亚马逊云科技CloudTrail和CloudWatch监控数据访问。

Raghu还强调了实施对机器学习模型和Bedrock模型的最小特权访问、在私有网络内进行模型开发以及为业务应用程序提供受控模型访问的重要性。应用程序保护同样至关重要,他建议利用亚马逊云科技WAF、Amazon CloudFront和Amazon Shield。

Raghu总结时提出了在亚马逊云科技上采用全面的数据保护方法,包括加密、访问控制、监控和应用程序保护。他提供了宝贵的进一步学习资源,包括亚马逊云科技关于构建安全机器学习平台的文档、Amazon SageMaker MLOps以及亚马逊云科技机器学习架构优化白皮书。

在这个叙述中,我们见证了尖端机器学习技术与强大安全实践的融合,这是由亚马逊云科技和Path AI精心编排的交响乐。MLSecOps成为一种范式转变,是一座创新的灯塔,照亮通往未来的道路,在那里,人工智能的力量将在坚不可摧的安全性和信任中得到驾驭。

下面是一些演讲现场的精彩瞬间：

亚马逊 SageMaker 提供了一个简单的架构,包括开发环境、暂存环境和生产环境。

当模型准备就绪时,可以使用亚马逊云科技 CodePipeline 将模型推广到暂存环境和生产环境。

在这个重要时刻,演讲者阐述了开发端到端人工智能产品的复杂性,以及在癌症诊断中利用人工智能模型整合和分析病理图像中的细胞和组织信息的重要性。

总结

在这个富有洞见的演讲中,亚马逊云科技的首席解决方案架构师Raghu Sora Bastina深入探讨了在亚马逊云科技上构建安全的MLOps(机器学习运维)管道的复杂性,并介绍了Path AI在开发其数字病理学AI产品的过程中所面临的挑战。主要内容包括:

MLOps是一个涉及人员、流程和技术的协作功能,旨在简化将机器学习模型投入生产、维护和监控的过程。它在机器学习生命周期的早期就引入了安全性,解决了漏洞并维护了数据和模型的机密性。
亚马逊云科技提供了一个全面的MLOps框架,包括Amazon SageMaker等服务,实现了安全的数据准备、模型构建、评估、部署和监控。该框架与各种亚马逊云科技安全和合规服务相集成,用于威胁检测、事件响应和法规遵从性。
作为AI驱动的数字病理学解决方案的领导者,Path AI分享了他们利用亚马逊云科技和第三方工具构建可扩展和安全MLOps管道的经验教训。他们强调了在机器学习生命周期的各个阶段保持数据溯源、保护、模型漏洞检查、模型跟踪、访问控制和端到端可审计性的重要性。

该演讲最后总结了关键要点,强调了在机器学习生命周期的早期引入安全性、通过关键绩效指标和指标来衡量成功,以及在整个组织中扩展MLSecOps实践的重要性。它还提供了在亚马逊云科技上构建安全的机器学习平台和生成式AI应用程序的宝贵资源。