关键字: [Stable Diffusion, User Input Moderation, Image Generation Microservice, Video Generation Microservice, Stable Diffusion Scaling, Asynchronous Sagemaker Endpoints]
本文字数: 400, 阅读完需: 2 分钟
导读
Ben来自Monks公司,他介绍了一种基于用户输入生成AI驱动图像、语音克隆和实时视频输出的解决方案。该演讲重点阐述了如何利用亚马逊云科技服务(如SAGEMAKER、LAMBDA和INFERENTIA2)实现高效扩展、低延迟和成本优化,以支持这种多模态应用程序。具体而言,Ben解释说,他们使用了具有队列系统的异步SAGEMAKER端点来实现弹性,使用自定义扩展指标进行数据驱动扩展,并使用LLM缓存和嵌入来减少对语言模型的负载,从而实现93%的缓存命中率。该演讲强调了Monks公司与亚马逊云科技在优化解决方案和影响亚马逊云科技产品路线图方面的合作。
演讲精华
在亚马逊云科技(AWS)举办的人工智能(AI)与创新基础设施创新日活动上,数字营销和技术解决方案公司Monks分享了一个令人振奋的开发多模态生成AI应用程序的经历。该应用程序能够根据用户的自由文本输入,生成相应的生成式AI图像、语音克隆以及近实时视频输出,供用户下载。
这一应用程序的架构由多个微服务组成,包括用户输入审核、图像生成、视频生成等核心模块。其中,图像生成微服务采用了部署在Amazon SageMaker上的Stable Diffusion模型,与之前演示者Hunter所展示的内容类似。为了实现图像生成的低延迟,Monks团队选择了Amazon Inferentia芯片实例进行优化,将图像生成的平均响应时间控制在10秒以内,满足了他们事先设定的目标。他们利用了Inferentia芯片实例为生成式AI工作负载如大语言模型(LLM)和Stable Diffusion等提供高性能和成本效益的优势。
然而,仅仅实现单个图像的快速生成还远远不够,真正的挑战在于如何在大规模并发场景下保持高效的响应能力。为此,Monks利用了SageMaker异步端点的内置队列系统,以及自定义的扩缩容指标,实现了基于流量模式的自动扩缩容。在流量高峰期间,异步端点能够自动扩展计算资源,确保请求得到及时处理。与此同时,Monks还采取了预先超配置资源的策略,以应对扩缩容操作带来的延迟影响。他们的目标是能够每分钟处理大量并发请求,生成大量图像。异步端点提供了内置的请求队列功能,使其能够在高并发场景下保持弹性和可靠性。
除了图像生成之外,处理大语言模型(LLM)也是这一应用程序面临的另一大挑战。由于LLM API通常会对请求数和token数设置严格的配额限制,而且跨区域负载均衡会导致巨大的延迟差异,因此直接调用LLM API无法满足大规模并发的需求。为解决这一问题,Monks提出了一种LLM缓存机制。
该机制的工作原理是:首先使用语义嵌入技术捕获用户输入的语义含义,并将其存储在向量存储数据库PineCone中。当新的用户输入到来时,应用程序会尝试在缓存中查找语义相似的嵌入,而不是进行精确的关键词匹配。只有在缓存未命中的情况下,才会调用LLM API进行处理。通过这种方式,Monks成功将大部分请求直接命中缓存,大幅降低了对LLM API的依赖,提高了整体性能。他们展示了一个示例,输入”面包”和”贝果”这两个看似不相关的词,系统都能够直接命中缓存,而输入”意大利面”则未命中缓存,需要调用LLM API。
在视频生成方面,Monks利用了Amazon Web Services Graviton实例来实现扩展。Graviton实例是基于Arm架构的云服务器实例,能够提供出色的价格性能比。整个应用程序的工作流程则由Amazon Step Functions服务进行协调和编排,Step Functions是一种可视化工作流服务,能够轻松组装分布在多个亚马逊云科技服务中的应用程序组件。
值得一提的是,在与亚马逊云科技的紧密合作过程中,Monks不仅成功将这一创新的多模态生成AI应用程序投入生产,还为亚马逊云科技的产品路线图提供了宝贵的反馈。例如,SageMaker异步端点的延迟问题在Monks的反馈下得到了改进,而Hugging Face与Amazon Inferentia芯片的优化集成也是基于此次合作的成果。Hugging Face是一个流行的开源库,提供了对各种预训练模型的支持,而Amazon Inferentia芯片则为这些模型提供了高效的推理能力。这种密切的合作关系有助于亚马逊云科技持续优化其AI产品和服务,为客户提供更佳的体验。
总的来说,这个案例生动地展示了亚马逊云科技在支持创新的生成式AI工作负载方面的强大能力,以及与合作伙伴紧密协作的重要性。通过灵活地组合和利用亚马逊云科技的多种服务和功能,如SageMaker、Inferentia芯片实例、异步端点、自动扩缩容、Graviton实例、Step Functions等,Monks成功构建并部署了一个高性能、可扩展的多模态生成AI应用程序,为未来的AI创新奠定了基础。
总结
打造创新的人工智能解决方案需要精心的规划和执行,以确保可扩展性和优化性能。在这个案例中,我们将探讨数字营销和技术解决方案公司Monks与亚马逊云科技合作,将一个多模态人工智能应用程序投入生产的过程。
该应用程序旨在根据用户输入生成人工智能驱动的图像、语音克隆和实时视频输出,在扩展和优化性能方面面临着重大挑战。通过利用亚马逊云科技的服务,如SageMaker、Lambda和Inferentia2实例,Monks取得了卓越的成果,包括图像生成的延迟仅为10秒,以及能够处理数千个并发用户。
一项关键创新是使用嵌入和向量存储实现了LLM缓存,从而实现了用户输入的高效语义匹配。这种方法减少了对LLM的负载,缓存命中率高达93%,大大提高了性能和成本效益。
在整个过程中,Monks和亚马逊云科技建立了共生合作关系,Monks提供了宝贵的反馈,影响了亚马逊云科技的产品路线图,例如改善SageMaker异步端点延迟和优化Hugging Face模型在Inferentia2上的性能。
随着Monks继续探索创新的人工智能应用,他们与亚马逊云科技的合作凸显了从一开始就考虑可扩展性的重要性,确保将尖端技术无缝集成到生产环境中。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 -- 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。