亚马逊云科技助力零一万物构建API平台和TOC产品

最新推荐文章于 2024-09-16 17:53:14 发布

taibaili2023

最新推荐文章于 2024-09-16 17:53:14 发布

阅读量578

点赞数 10

文章标签： aws

本文链接：https://blog.csdn.net/weixin_46812959/article/details/140001797

版权

关键字: [亚马逊云科技中国峰会2024, 基础模型推理扩展, 多模型部署, 推理组件架构, 自动扩展策略, 硬件资源分配]

本文字数: 2100, 阅读完需: 10 分钟

导读

在亚马逊云科技中国峰会2024上,阿杜巴特纳和费舍尔分享了如何使用Amazon SageMaker的推理组件功能,在单个推理端点上部署和扩展数百个基础模型。他们解释了推理组件可以为每个模型分配特定的硬件资源和自动扩展策略,并使用最小连接路由算法均匀分发推理请求,从而实现经济高效的大规模基础模型部署。费舍尔还介绍了零一万物如何基于亚马逊云科技框架构建API平台和TOC产品,利用其领先的大模型为各种应用场景提供服务。

演讲精华

以下是小编为您整理的本次演讲的精华，共1800字，阅读时间大约是9分钟。

在亚马逊云科技中国峰会2024的一场演讲中,亚马逊SageMaker的Generative AI解决方案架构师主管Adwait Ratnaparkhi和零一万物公司的API团队负责人Fisher共同探讨了如何使用AmazonSageMaker将基础模型的推理能力扩展到数百个模型上。

Adwait首先通过一个快速调查显示,在场的观众中有五个人正在构建生成式AI应用程序,三个人正在使用开源基础模型,两个人正在对基础模型进行微调,一个人需要托管多于一个的基础模型。他阐述了构建生成式AI应用程序的核心是基础模型,这是一种用于通用任务的大型预训练模型,或针对特定任务进行微调的模型。生成式AI应用通常需要多个基础模型,例如聊天机器人需要毒性检测、个人身份信息检测、问答、摘要等多个模型。此外,还需要根据客户数据对基础模型进行微调和领域特定调整,以提高客户体验。因此,需要托管从几十到几百个基础模型。他解释道,基础模型通常基于转换器架构,运行缓慢且内存饥渴,即使在昂贵的硬件上也可能运行缓慢。因此,需要进行大量的迭代实验来优化基础模型的性能,降低延迟并提高吞吐量。在托管多个基础模型时,还需要采取防护措施,避免出现噪声邻居问题,并确保数百个推理端点不会带来过多的运营开销。

接下来,Adwait以LaMa 13B模型为例,介绍了使用SageMaker推理端点部署单个基础模型的流程。Amazon SageMaker是一项端到端的全托管机器学习服务,其中的SageMaker推理可用于为超低延迟应用程序部署基础模型。用户可以使用SageMaker推理获取流式响应,也可以使用异步端点处理大型有效负载,如图像或视频文件。如果有大型数据集且可以离线推理,还可以使用SageMaker批量转换。用户可以选择在SageMaker推理端点上部署单个模型或多个模型,并自由选择所需的硬件后端,包括CPU、GPU和Amazon Inferentia。

在部署基础模型时,可以使用预构建的大模型推理容器,其中内置了所有的性能优化实践,包括优化、编译、量化等,无需用户自行优化。然后,可以为模型附加自动扩缩策略,其中的扩缩单位是机器学习实例或主机。最后,用户可以通过RESTful API调用推理端点获取流式响应。

Adwait指出,虽然上述架构适用于单个模型,但如果需要托管五十个或数百个模型,单独管理数百个推理端点将是运营开销过大。如果将所有模型部署在单个实例和端点上,则可能无法容纳所有模型。另一种方案是为每三个模型创建一个端点,但每个模型可能有不同的流量模式和硬件需求,这种架构也不够优化。

因此,亚马逊推出了SageMaker推理组件的新功能,允许在单个推理端点上打包多个基础模型。推理组件是一种模型抽象,代表已部署的模型。当推理组件位于端点上时,它就可以为流量服务。推理组件由五个主要部分组成:容器镜像URI(建议使用SageMaker预构建的大模型推理容器)、模型权重在S3中的位置、分配的CPU/GPU和内存资源、初始副本数量(避免冷启动延迟)以及每个推理组件附加的特定自动扩缩策略。可以在一个推理端点上部署多个推理组件,并独立扩缩每个模型。

Adwait解释了使用推理组件的三个步骤:首先选择机器学习实例类型并创建SageMaker端点配置,然后使用该配置创建端点并使实例可用,最后为每个模型创建并部署推理组件到该端点。SageMaker还提供了一整套生命周期API,用于管理部署在端点上的模型,并支持使用蓝绿部署更新推理端点,确保生产工作负载不受影响。

接下来,Adwait演示了如何使用推理组件功能进行自动扩缩。以Stable Diffusion模型和LaMa模型为例,Stable Diffusion模型在g5.12xlarge实例(4个GPU)上使用1个GPU,可扩展到1到4个副本;LaMa模型需要2个GPU,配置类似。SageMaker会尝试将模型合理打包在同一实例上,最大限度减少额外实例的需求。在这个例子中,两个模型各配置了1个初始副本,因此总共占用了3个GPU插槽,剩余1个插槽。

随后,Adwait模拟了流量变化的情况。首先,LaMa模型的请求增加,需要扩展但只有1个空闲GPU插槽,无法容纳2个副本。SageMaker会检测到这一点,并启动新实例以提供更多GPU资源,从而可以为LaMa模型添加2个新副本,满足流量需求。之后,如果LaMa模型的流量下降,SageMaker会相应缩减LaMa模型的副本数量;同时,如果Stable Diffusion模型的流量增加,SageMaker会利用已有的2个空闲插槽来添加Stable Diffusion模型的新副本,避免启动新实例,从而实现高效利用现有资源。

Adwait强调,SageMaker的放置策略会有效管理实例数量,在创建新实例之前,它会确保现有实例得到充分利用,并跨多个可用区部署实例以实现高可用性,从而提供了一种成本高效的解决方案。

总的来说,Adwait建议使用SageMaker推理组件在单个推理端点上打包多个基础模型,为每个模型配置初始副本数量以避免冷启动延迟,并为每个模型附加特定的自动扩缩策略以匹配其流量模式。SageMaker还使用最小连接路由算法在多个模型之间近乎均匀地分发推理请求,从而获得最佳延迟和吞吐量。

接下来,Fisher从零一万物公司分享了他们如何利用亚马逊云科技框架和SageMaker来构建API平台和ToC产品。零一万物是一家立足于中国的大模型公司,最近推出了1.2万亿参数的大模型,在斯坦福的ChatbotArena评测中,该模型的表现仅次于GPT家族、Gemini和CloudAnchor OPT等最大尺寸模型,但领先于Anthropic的Claude、Sonnet、GPT-4早期版本以及国内所有其他大模型。

基于这个领先的大模型,零一万物推出了一系列API产品,如ELarge通用对话模型。Fisher解释说,与美国相比,中国的AI应用场景还相对较少,这与模型质量不够好有很大关系。因此,他们在全球部署了ELarge模型,希望能够推动中国的AI应用场景落地。

为了增强ELarge模型的能力,零一万物提出了两种解决方案。首先是ELargeRAG,能够通过联网搜索或检索自身知识库来获取更准确的答复,减少幻觉,适用于需要知识检索的企业场景和客服问答场景。另一种解决方案是ELargeTurbo,是一种更快更便宜(仅为ELarge 60%的价格)但效果接近的模型,面向希望降低成本的客户。

除了ELarge系列,零一万物还推出了其他定制化模型,如EMedium200K(支持200K上下文窗口,适用于阅读长文本)、EVision视觉理解模型(对标GPT-4 Vision,适用于图像理解和数据可视化场景)、ESpark轻量级模型(增强代码和数学能力)等。

自5月13日起,零一万物在国内外同步发布了E系列API产品。无论客户的业务在国内还是海外,或者说都有,那么都可以选择使用他们的模型。目前,零一万物的模型已被应用于多个场景,如线下销售话术优化、AI学习导航、商业写作,甚至有一个公益项目利用E模型为癌症患者提供治疗知识和辅助诊断,获得了三甲医院的合作。

Fisher表示,零一万物从成立之初就定位为一家全球化的大模型公司。他们很早就在海外推出产品并验证了技术和成本的产品与市场匹配度。在海外的一个大型生产力应用中,零一万物已经积累了大量用户,并基于ELarge和EMedium等模型支持各种场景,在支持生产力和AI助手类型应用方面有着良好的实践经验。

零一万物的全球技术架构是基于亚马逊云科技构建的,包括前端CloudFront和负载均衡、基于EKS的业务逻辑部署、ElastiCache和OpenSearch等数据层。在推理层,他们使用了SageMaker推理组件在单个端点上部署多个模型。

最后,Adwait总结了一些最佳实践建议:使用SageMaker预构建的大模型推理容器,其中包含了所有性能优化;使用SageMaker推理组件托管多个基础模型;如果进行LoRA微调,使用SageMaker新发布的LoRA适配器托管功能。

总的来说,这场演讲全面介绍了SageMaker推理组件的新功能,以及如何使用它在单个端点高效托管和扩缩数百个基础模型,并分享了零一万物公司在亚马逊云科技上构建生成式AI应用的实践经验,为企业提供了宝贵的参考。

下面是一些演讲现场的精彩瞬间：

亚马逊云科技宣布 SageMaker 推理服务推出新功能”推理组件”,可独立扩展每个基础模型,并为生成式应用程序提供最佳吞吐量。

零一万物公司在斯坦福大学的LMSIS进行了一次公正的大模型盲测评估,展现了其千亿参数1.2T大模型的卓越表现。

亚马逊云科技推出了eLarge Turbo模型,能够以60%的价格提供接近eLarge的性能,为开发者提供更高性价比的选择。

亚马逊云科技中国峰会2024上,演讲者介绍了亚马逊的最新人工智能模型eMedium 200K,可处理长文本和图像任务。

亚马逊云科技中国峰会2024上,演讲者详细介绍了公司海外产品的技术架构,采用亚马逊云科技服务搭建,包括前端负载均衡、基于EKS部署业务逻辑、使用ElastiCache和OpenSearch作为数据层,并利用Inference Component部署多个模型。

总结

亚马逊云科技中国峰会2024上,阿杜巴特纳和费舍尔分享了如何使用Amazon SageMaker将基础模型的推理能力扩展到数百个模型。他们阐述了生成式人工智能应用程序需要多个基础模型的挑战,以及SageMaker推理组件的新功能如何解决这一问题。

推理组件允许在单个推理端点上部署多个基础模型,为每个模型分配硬件资源和自动扩展策略。SageMaker使用最小连接路由算法在模型间均匀分发推理请求,提供最佳延迟和吞吐量。这种架构可实现经济高效的大规模基础模型部署。

费舍尔还分享了零一万物如何基于亚马逊云科技框架构建API平台和TOC产品,利用其领先的大模型提供各种应用场景。他们在全球范围内部署了多种模型变体,以满足不同需求,并采用亚马逊云科技技术栈实现高效可扩展的架构。总之,亚马逊云科技为大规模基础模型部署提供了创新解决方案。

2024年5月29日，亚马逊云科技中国峰会在上海召开。峰会期间，亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务，成为企业构建和应用生成式 AI 的首选。此外，活动还详细介绍了亚马逊云科技秉承客户至尚的原则，通过与本地合作伙伴一起支持行业客户数字化转型和创新，提供安全、稳定、可信赖的服务，以及持续深耕本地、链接全球，助力客户在中国和全球化发展的道路上取得成功。