亚马逊云科技 Graviton 处理器助力生成式AI模型高效推理

9016fa585d6807bf0cbe4ace398c99b3.jpeg

关键字: [Graviton]

本文字数: 500, 阅读完需: 2 分钟

导读

在这场演讲中,演讲者探讨了亚马逊云科技 Graviton 处理器如何为生成式人工智能模型实现高效推理。他们阐释道,Graviton 实例适合部署参数数量较少的小型到中型语言模型,并展示了在 Graviton 3 和 Graviton 4 实例上运行的 8 亿参数模型。该演讲重点关注 Graviton 处理器如何为人工智能推理工作负载带来更低延迟、更高吞吐量以及更优成本和能源效率。

演讲精华

在当今科技飞速发展的时代,人工智能和机器学习已经成为了各行各业的关键驱动力。亚马逊云科技(亚马逊云科技)作为云计算领域的领导者,一直在不断创新和优化其产品和服务,以满足客户日益增长的需求。其中,Graviton 处理器就是 亚马逊云科技 在高效计算领域的一大创新成果。

Graviton 处理器的设计初衷是为了提供高性能、低功耗的计算能力,尤其是在人工智能和机器学习推理方面。亚马逊云科技 产品经理 Jeff Underhill 解释道,AI/ML 工作负载通常是计算密集型或带宽密集型的,因此可以在 CPU 上运行部分任务,而 GPU 则更适合加速器工作负载。Graviton 处理器恰好在这两者之间找到了平衡,为 AI/ML 推理提供了高效的计算能力。

亚马逊云科技 首席产品经理 Suniti Nadampali 进一步阐述了 Graviton 处理器在支持不同规模的 AI/ML 模型和各种使用场景方面的灵活性。从几百万参数到数百亿参数的模型,从离线大批量推理到实时单个推理,Graviton 实例都可以满足不同需求。这种灵活性对于 亚马逊云科技 客户来说是一大优势,因为他们可以根据自己的具体需求选择最合适的解决方案。

为了让 Graviton 处理器发挥出最大潜力,亚马逊云科技 团队在硬件和软件层面都进行了大量创新和优化。在硬件方面,Graviton 处理器支持 BFloat16 格式、矩阵乘法加速指令等特性,可以显著提高计算性能。最新的 Graviton 4 实例更是提供了更高的单线程性能、更多内核数量和更宽的内存带宽,进一步增强了计算能力。

在软件层面,亚马逊云科技 与 ARM 合作,将 Graviton 特性集成到主流机器学习框架中,如 PyTorch、TensorFlow 和 Scikit-learn。通过量化和其他优化技术,这些框架可以在 Graviton 实例上获得更好的性能和更低的延迟。例如,在 PyTorch 2.4 版本中,亚马逊云科技 团队为 Graviton 实例提供了 TorchCompile 优化,使得在自然语言处理、计算机视觉和推荐系统等领域,模型的性能可以提高 2 倍,延迟降低一半。

为了更直观地展示 Graviton 处理器的优势,Suniti 在现场进行了一个生成式人工智能(GenAI)模型推理的演示。她使用了 llama-cpp 框架在 Graviton 3 实例上部署了一个 80 亿参数的 GenAI 模型。在评估 GenAI 模型性能时,有两个关键指标需要关注:提示编码延迟和标记生成吞吐量。提示编码延迟指的是模型理解输入上下文所需的时间,而标记生成吞吐量则反映了模型生成响应的速度。在演示中,Graviton 3 实例的提示编码延迟仅为 50 毫秒,标记生成吞吐量高达每秒 45 个标记,远远超过了人类阅读和理解的速度。

为了进一步展示 Graviton 处理器的性能提升,Suniti 随后在 Graviton 4 实例上运行了相同的工作负载。结果显示,Graviton 4 实例的标记生成吞吐量比 Graviton 3 实例提高了 40% 以上,达到了每秒 65 个标记的惊人水平。这种性能飞跃的背后,正是 Graviton 4 实例在硬件层面的创新,如更强大的内核、更宽的内存带宽等。

除了出色的性能表现,Graviton 处理器在可持续性方面也有显著优势。Jeff Underhill 指出,由于 Graviton 处理器的高能效设计和数据中心层面的创新,运行在 Graviton 实例上的工作负载可以实现高达 60% 的可持续性改善。这对于那些制定了碳排放目标的企业来说,无疑是一大福音。

总的来说,亚马逊云科技 正在利用 Graviton 处理器的创新来支持高效的 AI/ML 和 GenAI 推理,为客户提供更多选择来部署这些工作负载。不仅如此,Graviton 实例还可以帮助客户降低成本和碳排放,实现可持续发展。例如,一家名为 Sprinkler 的公司就在 Graviton 3 实例上运行 AI 工作负载,获得了 20% 到 30% 的性能提升和约 20% 的成本节省。

随着人工智能和机器学习技术的不断发展,对高性能和高效计算的需求也将与日俱增。通过 Graviton 处理器的创新,亚马逊云科技 正在为客户提供一种全新的选择,帮助他们在这场技术革命中占据优势。

总结

这篇演讲探讨了亚马逊云科技 Graviton 处理器在高效且经济实惠地部署生成式人工智能 (GenAI) 推理工作负载方面的能力。它强调了不同规模的人工智能/机器学习模型和使用场景的多样性,需要一种多功能的计算解决方案。Graviton 处理器凭借其节能设计和硬件创新,如 BFloat16 支持和矩阵乘法加速,成为在 CPU 上运行人工智能/机器学习工作负载的一个引人注目的选择。

最新的 Graviton 4 实例拥有更多的核心数量、更大的内存带宽和更好的单线程性能,能够部署更大的模型。演讲者利用优化的 llama-cpp 框架,展示了一个 80 亿参数模型的量化和推理,在 Graviton 实例上展现了令人印象深刻的提示编码延迟和标记生成吞吐量。

演讲强调了软件优化的重要性,亚马逊云科技为开源框架如 PyTorch 做出贡献,以充分利用 Graviton 的硬件能力。Graviton 的节能和性能改进也有助于实现可持续发展目标,在提供相同的计算输出的同时减少碳排放。总的来说,这篇演讲突出了亚马逊云科技致力于为多样化的人工智能/机器学习领域提供高效且可扩展的计算选择,而 Graviton 处理器在实现 CPU 上经济实惠的 GenAI 推理方面发挥着关键作用。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 -- 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。

  • 24
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值