亚马逊云科技助力大语言模型的训练和推理-CSDN博客

本文链接：https://blog.csdn.net/weixin_46812959/article/details/142006700

关键字: [Inferentia and Trinium, Machine Learning Accelerators, Transformer Models, Large Language Models, Model Compilation, Memory Optimization]

本文字数: 400, 阅读完需: 2 分钟

导读

在这场演讲中,来自亚马逊云科技的亨特·卡莱尔阐述了亚马逊云科技如何通过专门设计的芯片,诸如Inferentia和Trinium,实现了大型语言模型和生成式AI模型高性能的训练和推理。他解释说,Inferentia和Trinium针对转换器模型(如LLaMa、GPT和稳定扩散)进行了优化,使客户能够高效运行这些工作负载。该演讲重点介绍了亚马逊云科技的Inferentia和Trinium如何通过模型编译、量化以及与开源库(如PyTorch和Hugging Face)的集成等功能,实现了更快的性能、更低的成本以及基础模型的简化部署。

演讲精华

在Amazon Web Services AI创新日活动中,Jasmine Kyles和A.M. Grabelli邀请了Amazon Web Services Anapheno Labs服务团队成员Hunter Carlisle,与众人分享亚马逊云科技在构建高性能生成式AI(GenAI)基础模型方面的创新实践。

Hunter首先回顾了亚马逊云科技在机器学习加速器领域的十余年发展历程。他指出,早在2015年至2016年,随着深度学习在计算机视觉领域的兴起,亚马逊云科技开始关注客户在机器学习工作负载方面的计算需求。2018年,Transformer架构的出现为语言模型带来了突破性进展,亚马逊云科技亦在2019年推出了第一代机器学习加速器Inferentia 1,支持当时主流的计算机视觉和Transformer工作负载。

随着对更大模型的需求不断增长,亚马逊云科技在2022年推出了第二代加速器Tranium和Inferentia 2,专门针对Transformer模型和新兴的视觉模型(如扩散模型)进行了优化,使得大规模模型的训练和推理变得更加高效。Hunter强调,亚马逊云科技在研究和识别大型语言模型(LLM)和生成式AI模型的特定需求方面投入了大量精力,以确保在性能和成本方面为客户带来最大收益。他表示,许多客户希望将其机器学习工作负载,特别是大规模深度学习工作负载迁移到亚马逊云科技的专用机器学习加速器Tranium和Inferentia上运行,以获得加速效果。

接下来,Hunter介绍了亚马逊云科技加速器对各种基础模型的支持情况。他表示,PyTorch框架下的LLaMa、GPT系列模型(如GPT-2、GPT-Nox)、Mistral等语言模型,以及TensorFlow和Jax框架,都可以在亚马逊云科技加速器上获得良好的性能支持。他指出,选择合适的模型大小和硬件资源非常重要,需要根据模型参数量和可用内存进行匹配。以LLaMa模型为例,较小的8B模型需要约15GB内存才能加载,而较大的LLaMa 3.1 405B模型则需要高达800-900GB内存,通常需要采用分布式计算。对于超大模型,亚马逊云科技支持量化等技术来节省内存使用,如QLaura(Quantized LLaMA)采用int8或int4等较小的数据类型来减少内存占用。

为了直观展示亚马逊云科技加速器的强大性能,Hunter现场演示了在Inferentia 2实例(具有12个设备、24个神经元核心)上运行Stable Diffusion模型进行图像生成。Stable Diffusion是一个由多个模型组成的管道,需要分别对每个模型进行编译才能在亚马逊云科技硬件上高效运行。他通过输入”一只做宇航员工作的海牛”的提示,Stable Diffusion在数秒钟内(每次迭代约0.3秒)就生成了一张逼真的图像,并展示了迭代次数(如10次迭代约2秒、20次迭代约5秒、30次迭代约8秒)对图像质量的影响。不同的随机种子会产生不同的最终图像。

Hunter还介绍了Amazon Web Services Neuron SDK和SageMaker JumpStart等工具,可以极大简化在亚马逊云科技加速器上部署模型的过程。亚马逊云科技与开源社区Hugging Face密切合作,开发了Optimum Neuron工具,只需几行代码即可快速启动和运行支持的模型。通过SageMaker JumpStart,用户可以轻松搜索和启动亚马逊云科技预先准备好的模板,快速上手各种模型的部署,如LLaMa等语言模型。

总的来说,亚马逊云科技在GenAI基础模型构建领域拥有卓越的技术实力,不仅提供了专门优化的硬件加速器,还持续优化软件工具和部署流程,为企业和开发者提供了高性能、经济高效的解决方案。亚马逊云科技将继续致力于AI/ML创新,帮助客户释放数据的价值,推动业务发展。

总结

亚马逊云科技一直走在开发专用机器学习加速器的前沿,如Trinium和Inferentia,旨在优化大规模深度学习工作负载的性能并降低成本。这些芯片经历多年发展,最初支持计算机视觉工作负载,后来扩展到支持像LLM这样的基于Transformer的模型。Trinium和Inferentia 2专门为Transformer模型和先进的计算机视觉任务(如扩散模型)而设计。

亚马逊云科技支持广泛的基础模型,包括LLaMa、GPT家族、Mistral等,覆盖PyTorch、TensorFlow和Jax等各种框架。选择合适的实例大小和量化等内存优化技术对于高效运行大型模型至关重要。它演示了稳定扩散(Stable Diffusion)这一图像生成模型,展示了该模型如何根据文本提示迭代改善图像质量。

亚马逊云科技与Hugging Face合作,通过Optimum Neuron和SageMaker JumpStart等工具简化了在Neuron设备上编译和运行模型的过程。亚马逊云科技Neuron文档提供了全面的资源,帮助入门使用这些专用加速器并优化亚马逊云科技上的机器学习工作负载。

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务，服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选，通过生成式AI技术栈，提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 -- 在中国，亚马逊云科技通过安全、稳定、可信赖的云服务，助力中国企业加速数字化转型和创新，并深度参与全球化市场。