亚马逊云科技自研AI芯片加速人工智能推理训练

关键字: [亚马逊云科技中国峰会2024, Inferentia, 自研Ai芯片, 推理训练, 大语言模型, 芯片设计, 算力性能]

本文字数: 2200, 阅读完需: 11 分钟

导读

张铮先生在亚马逊云科技中国峰会2024上介绍了亚马逊云科技自研AI芯片的背景、特点和应用场景。他解释了亚马逊云科技推出自研AI芯片的原因,包括内部业务需求和客户关注的可移植性、易用性和性价比。他介绍了亚马逊云科技目前有三款自研AI芯片:Inferentia推理芯片第一代和第二代,以及Trn1训练芯片。这些芯片在算力、带宽等方面具有优异表现,并支持主流的大语言模型和多模态模型。亚马逊云科技还提供了Neuron SDK等软件工具,方便用户使用自研芯片。最后,伟漾公司的刘志悦先生分享了他们使用亚马逊云科技Inferentia芯片的实际应用案例,展示了自研芯片在成本和性能方面的优势。

演讲精华

以下是小编为您整理的本次演讲的精华,共1900字,阅读时间大约是10分钟。

亚马逊云科技(Amazon Web Services, 亚马逊云科技)自研AI芯片的背景源于2017年Transformer模型的兴起。随着大语言模型和扩散模型等AI模型在亚马逊内部的广告、搜索、Alexa等业务部门中的应用日益增多,对AI芯片的需求与日俱增。然而,过去几年GPU的供应量和算力完全无法满足亚马逊的需求。同时,亚马逊云科技内部有数以千计的外部客户,在与客户交流时也发现客户非常关注三个方面:芯片的可移植性、易用性和性价比。

基于内部需求和外部客户反馈,亚马逊云科技决定自研AI芯片。经过约八年的发展,包括新集成电路设计、晶圆设计、测试、量产、硬件组装上架和推广等过程,亚马逊云科技已经推出了三款自研AI加速芯片。

第一款是Inferentia第一代推理芯片,于2018年左右问世,适用于当时主流的卷积神经网络、RNN、LSTM等传统模型。第二款是2023年推出的Inferentia2第二代推理芯片,完全基于Transformer架构,非常适合拉马系列、Meta AI的Bloom、以及其他大型Transformer语言模型的推理任务。在亚马逊云科技中国峰会的展区,参会者可以体验一些语言模型和图像模型在Inferentia2芯片上的表现,并进行Demo和尝试。第三款是2022年推出的Trn1训练芯片,其特点是适合千亿模型的预训练和微调,如1T大模型,在大模型训练方面表现出色。

截至目前,这三款自研AI芯片已经在亚马逊云科技全球33个区域中的23个区域可用,包括中国的北京区域。如此广泛的覆盖范围反映了全球用户对亚马逊云科技自研芯片的高度认可。

讲到训练芯片Trn1,用户可能会关注几个关键指标。首先是算力,Trn1芯片单机的最大算力可以达到3PF(3 Peta FLOPS),这一数据可与其他厂商的产品进行对比。其次是片间带宽,Trn1采用NVLink技术,片间带宽能达到768GB/s,性能非常出色。第三是基间带宽,对于Trn1训练实例,其基间带宽可以达到1600GB/s。这几个参数对于评估和优化大模型训练的算力性能至关重要。

对于Inferentia2第二代推理芯片,它也有自己的一些基础指标。最大的一个实例可以配备384GB加速器内存,由12个32GB加速器组成。因此,在Inferentia2上就可以完整推理175亿参数的GPT大语言模型。此外,像LamaCPU、LamaMOE、Megatron-Turing NLG 8B、Mixture of Experts 7B等热门大型语言模型,在Inferentia2芯片上都可以获得非常完美的推理性能。

硬件的性能固然重要,但软件的支持同样关键,因为软件是驱动硬件、让硬件发挥最大效能的纽带。对于亚马逊云科技自研AI芯片,它提供了Neuron SDK作为软件开发环境。Neuron SDK在亚马逊云科技的EC2实例上已经预装,比如Deep Learning AMI。当然,用户也可以按照提供的脚本在自己的EC2实例上安装该SDK。

在机器学习框架的支持方面,Neuron SDK目前支持PyTorch、TensorFlow,未来也将支持流行的JAX框架。由于很多开发人员基于HuggingFace Transformers库进行模型推理和训练,因此亚马逊云科技与HuggingFace进行了深度合作。通过一个名为OptimNeuron的项目,用户可以直接加载HuggingFace上的预训练模型,并在亚马逊云科技自研芯片上进行推理,操作非常方便,只需加载模型然后调用推理函数即可。

与在GPU上推理相比,在亚马逊云科技自研芯片上推理会多出一个编译步骤。首先需要将预训练好的模型编译,并保存为亚马逊云科技自研芯片可识别的AFF格式。编译后的模型已经被预先放置在HuggingFace的存储空间中,用户可以直接加载这些模型进行推理,无需重复编译,使用体验非常顺畅。除了编译步骤,其他步骤如准备输入数据、调用推理函数等与在GPU上基本相同。由于高度封装,用户只需少量代码改动即可将工作负载适配到亚马逊云科技自研芯片上,无需了解底层细节,使用起来非常友好。

亚马逊云科技自研芯片的生态系统也非常完善,包括监控、调试等一整套成熟的体系。这些芯片可以运行在容器、EC2实例、EKS(Elastic Kubernetes Service)、SageMaker等多种环境中。对于训练和推理工程师而言,有时需要定义自己的算子(Kernel函数),而这些算子可能之前在GPU上没有支持。为此,Neuron SDK开放了Kernel接口,允许开发人员通过C++接口定义自己的Kernel函数,并适配到亚马逊云科技自研芯片上,从而支持特殊的算子需求。

除了数据并行,Neuron SDK还支持Pipeline并行和Model并行。用户只需通过一行代码指定相应的参数,就可以将大型模型分割到多张芯片上进行并行计算,实现更高效的模型训练和推理。

在模型支持方面,亚马逊云科技自研芯片已经能够覆盖绝大多数主流模型。对于Transformer类模型,支持情况可以分为三类:Encoder类模型如BERT、AlBERT等;纯Decoder类模型如GPT系列、Bloom、LLaMa 1/2/3(7B/8B/30B/70B)、MT NLG、Mixture of Experts等;以及Encoder-Decoder类模型如T5、FluentT5等翻译模型。所有这些模型在亚马逊云科技自研芯片上都可以获得良好的支持和性能表现。

对于一些特殊的模型,如微调模型(Stable Diffusion 2.1/5/XL+Refiner等)和多模态模型(ViT、CLIP、BLIP等),在亚马逊云科技自研芯片上运行时也能获得非常不错的性价比。至于传统的视觉模型如YOLO、ResNet等,在这些芯片上的支持自然也是非常出色的。据测试,约93%的HuggingFace前100模型可以直接在亚马逊云科技自研芯片上运行。在峰会展区,参会者可以体验基于这些芯片的图像/语音生成Demo,扫描二维码后可以快速搭建环境、下载预编译模型、定义推理容器,并通过开源的ChatUI工具加载模型进行对话交互。

对于训练任务,亚马逊云科技提供了两种方式:预训练大语言模型,或者FineTune(微调)。无论是预训练还是微调,整个过程主要包括三个步骤:如果用户有兴趣在工作中FineTune拉马模型或其他大型语言模型,可以与亚马逊云科技团队联系,他们会提供便利的支持。

在过去几年的发展过程中,亚马逊云科技在各个行业积累了大量使用自研AI芯片的客户案例。视频制作公司伟漾(Vyond)就是其中一个典型案例。伟漾是一家总部位于美国湾区的公司,在香港和台北也有工程团队,主要为北美企业客户提供动画视频制作服务。

2022年,伟漾开发了一款基于提示词生成视频的AI产品”伟漾购”(Beyond Go)。这款产品允许用户输入主题或现有内容,选择风格、布局和场景,就可以快速生成一段视频,并可以在伟漾的工作室中进一步编辑和调整。在产品界面上,用户还可以输入英文单词,系统会自动生成相应的图像素材,非常方便。

在开发这款AI产品的过程中,伟漾遇到了两个主要问题:易用性和性价比。他们原本在传统的C6i或C6a EC2实例上运行非AI服务,一旦切换到GPU实例开发AI特性,成本就会增加5-10倍。经过与亚马逊云科技团队的多次交流,伟漾被推荐尝试使用Inferentia芯片。从Inferentia One到Inferentia Two,伟漾都进行了尝试,发现使用这些芯片不仅成本可以节省20%-30%,响应时间也有明显提升。

伟漾的AI团队在本地端使用GPU进行模型训练,而在生产环境中使用Inferentia芯片进行推理。从训练到生产环境的整个部署过程非常顺畅,因为只需调用Neuron SDK,工程师就可以少量代码改动将GPU工作负载迁移到Inferentia芯片上。在监控方面,伟漾使用Prometheus与Neuron SDK进行了无缝集成。总的来说,将实例类型从GPU切换到Inferentia芯片是一个非常容易的过程。

伟漾公司的工程师也亲临现场,对于使用Inferentia芯片的具体经验,现场观众可以当面向他们咨询和交流。

通过张铮先生和刘志悦先生的双重分享,我们可以看到亚马逊云科技自研AI芯片在推理和训练两个领域都展现出了卓越的性能。无论是大型语言模型、多模态AI任务,还是视觉等传统AI任务,这些芯片都能为用户提供高性能、高性价比的计算能力。通过与主流AI框架和工具的深度集成,以及高度封装和完善的软件生态,亚马逊云科技自研芯片的使用体验也获得了极大的优化和增强。我们有理由相信,未来这些自研芯片将在更多场景下展现其独特的实力,为人工智能的发展贡献更多动能。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技中国峰会2024上,演讲者解释了AI芯片的两大核心功能:训练和推理。

d7db0e432a97d9776aeeeba22270a4ca.jpeg

亚马逊云科技工程师介绍了公司自研AI芯片的背景、功能特点、软件开发环境以及使用场景。

d74ba898d75738ead351c0e3a88e521e.jpeg

亚马逊云科技中国峰会2024:亚马逊开放Kernel接口,支持自定义算子在其芯片上运行,助力AI算法创新。

aee6eb2f917c8cef5196452e9126b412.jpeg

亚马逊云科技展示了与HuggingFace合作的OptimNeuron项目,93%的前100个模型可直接在自研芯片上运行,并提供了图声纹Demo供现场体验。

e30dcf0306ca90592892292fa54da287.jpeg

亚马逊云科技推出了一款名为”Beyond Go”的AI视频创作工具,可以轻松快速地将想法转化为脚本和视频。

c0fa85f0e080f87dd133a182fbb96887.jpeg

亚马逊云科技中国峰会2024:工程师无需大幅改动架构,只需调用Neuron SDK并修改几行代码,即可轻松将模型从GPU迁移到Inferentia芯片上进行推理部署。

247c8ca9f20447aa6c2ec1b9b68ea303.jpeg

总结

亚马逊云科技自研AI芯片推动了人工智能技术的发展,为客户提供了高性能、高性价比的解决方案。这些芯片专门设计用于AI训练和推理,能够高效运行大型语言模型和多模态模型。亚马逊云科技已推出三款自研AI芯片:Inferentia推理芯片、Inferentia2推理芯片和Trn1训练芯片,具有出色的算力、带宽和内存等性能指标。通过Neuron SDK软件开发工具包,客户可以轻松部署和优化模型在这些芯片上运行,提高了易用性。此外,亚马逊云科技与HuggingFace合作的OptimNeuron项目,使大多数HuggingFace模型可直接在自研芯片上运行。客户案例展示了自研芯片在成本和性能方面的优势,为企业提供了高效的人工智能解决方案。

亚马逊云科技自研AI芯片的发展充分体现了公司在人工智能领域的创新能力和对客户需求的重视。通过持续投入和技术创新,亚马逊云科技将继续为客户提供领先的AI产品和服务,推动人工智能技术的发展和应用。

2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。

  • 9
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值