NVIDIA在亚马逊云上的加速计算平台

NVIDIA在亚马逊云上的加速计算平台

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, NVIDIA Blackwell, Accelerated Computing Platform, Nvidia Ai Platform, Amazon Web Services Collaboration, Generative Ai Models, Operational Efficiency]

导读

探索NVIDIA在亚马逊云科技上的加速计算如何应对生成式AI工作负载的挑战,该计算平台采用了最新的Blackwell、Hopper和Ada Lovelace架构。本次会议重点介绍Project Ceiba超级计算机,它采用NVIDIA GB200 NVL72,可扩展至20,736个NVIDIA Blackwell GPU和10,368个NVIDIA Grace CPU,通过弹性结构适配器(EFA)网络提供414 exaflops的AI性能,并采用尖端液冷解决方案,实现无与伦比的性能、效率和规模。此外,还将展示一个安全解决方案演示,该方案将Blackwell加密与亚马逊云科技 Nitro系统、亚马逊云科技 KMS和EFA集成,以确保端到端的加密数据保护。本次演示由亚马逊云科技合作伙伴NVIDIA提供。

演讲精华

以下是小编为您整理的本次演讲的精华。

在科技进步的领域中,生成式人工智能的出现引起了全世界的关注,掀起了一股类似于“ChatGPT时刻”的热潮。这一现象已经超越了科技行业的范畴,渗透到社会的方方面面,从外行人的日常闲聊到财富500强企业的董事会。企业一直在寻求获得竞争优势的机会,因此纷纷采用生成式人工智能来提高运营效率、增强客户体验,并在日益拥挤的市场中区分自己的产品和服务。

生成式人工智能的潜在应用范围广泛,涵盖从医疗保健到金融等各个行业,为众多挑战提供解决方案,开辟创新的新途径。然而,要实现这一潜力,关键在于能否提供令人信服的服务,而这与性能和可持续性密不可分。

认识到这一紧迫需求,NVIDIA推出了Blackwell架构,这是一项工程杰作,将高性能与能源效率完美融合。该架构的一大亮点是创新的液体冷却系统,体现了NVIDIA对可持续发展的承诺。这一系统采用了被称为热水直接液体冷却的技术,摒弃了传统的制冷机,改用环境空气进行冷却,从而实现了更加节能的冷却过程,降低了数据中心的整体噪音水平。

随着生成式人工智能的兴起,对计算能力的需求日益旺盛,能源效率的重要性也因此凸显出来。NVIDIA的GPU曾被视为耗能大户,但从每瓦特性能的角度来看,它们实际上非常节能。通过以前所未有的速度完成计算密集型任务,这些GPU有效降低了整体能耗,这是一个看似违反直觉但却深刻的启示。

NVIDIA与亚马逊云科技的合作孕育了丰硕的成果,包括在亚马逊云科技平台上提供的一系列NVIDIA GPU实例。其中包括新推出的P5EN上的H200以及备受期待的基于Blackwell架构的P6实例,后者将于明年推出。除了硬件产品,NVIDIA还提供了DGX Cloud、NVIDIA Enterprise、NVIDIA NIM和NVIDIA Omniverse等服务,与各种亚马逊云科技服务无缝集成。

NVIDIA的实力核心在于软件专长,其软件工程师的数量是硬件工程师的两倍。这一战略性的资源分配体现了公司致力于优化性能并为下一代模型做好准备的决心。这一决心体现在最近的几项公告中,包括DGX Cloud在亚马逊云科技上的可用性、与Amazon IoT Greengrass的集成、亚马逊云科技 Bracket用于量子计算,以及Triton Inference Server被纳入SageMaker。

NVIDIA的平台方法是一种全面的努力,涵盖了从硬件到软件的整个技术栈。在硬件方面,NVIDIA提供GPU、CPU和交换机,而软件栈则包括CUDA、大量库以及NIM和Blueprint Agents等服务。Blackwell平台尤其拥有一系列创新,包括增强的张量核心、强大的安全功能和解压缩引擎,这些创新都有助于在行业基准测试中创造新的性能记录。

可持续发展仍然是NVIDIA理念的基石,Blackwell平台的液体冷却系统就是这一承诺的典范。但是,性能同样至关重要,因为它是实现训练和推理工作负载投资回报率(ROI)的催化剂。NVIDIA的客户成功案例证明了这一点,例如提供大型语言聊天机器人的Perplexity公司,通过在亚马逊云科技平台上利用NVIDIA技术,实现了令人瞩目的4倍成本降低。同样,专注于药物发现和分子建模的Alpha Bio公司,通过利用NVIDIA的解决方案,实现了10倍的预测增长。

对于那些在部署生成式人工智能时面临缺乏专业知识、成本担忧或基础设施限制等挑战的组织而言,在亚马逊云科技上的DGX Cloud服务提供了一个令人信服的解决方案。该服务为组织提供了专用的、不可抢占的云端基础设施,使它们能够训练和微调模型,而无需承担本地部署所需的前期资本支出。

作为NVIDIA与亚马逊云科技深度合作的见证,Project Seba是一项宏伟的工程。该项目旨在构建一个由20,700个Blackwell GPU组成的大型系统,这是一个真正的计算巨兽,旨在推动NVIDIA对下一代生成式人工智能模型、智能体模型、多模态模型及更多领域的研究。这个系统的规模令人震惊,拥有惊人的414艾克萨级计算能力和强大的网络功能,彰显了两家公司推动可能性边界的决心。

随着生成式人工智能的未来展开,模型本身将变得越来越复杂,不仅仅是规模上的增长,还将融入更先进的算法技术和架构创新。视觉语言模型和多模态能力正在走近,它们能够无缝集成图像、文本、视频和PDF,有望开启全新的洞见和理解领域。

此外,智能体模型的出现预示着人工智能的新时代,这些系统将具备链式推理的能力,能够筛选海量数据,发现以前从未发现过的见解。这种能力的影响是深远的,有望彻底改变从药物发现到分子建模等各个领域。

NVIDIA未来的路线图体现了其对创新的坚定承诺。公司每年都会推出新的架构,势必将推出一系列具有突破性的平台。继Blackwell架构之后,NVIDIA将推出Blackwell Ultra,提供更大的内存和计算能力。接下来将是Rubin和Rubin Ultra,每一个都代表着性能和效率的飞跃。

支撑这些硬件进步的是一个强大的支持技术生态系统,包括NVIDIA的下一代基于ARM的CPU Vera,以及一套为公司的智能NIC和顶层交换机提供动力的网络处理器。这种从芯片级到数据中心规模的整体方法,体现了NVIDIA致力于提供端到端解决方案以满足生成式人工智能日益增长的需求。

总之,NVIDIA在亚马逊云科技上的加速计算平台代表了尖端硬件、软件和服务的融合,所有这些都经过精心设计,旨在释放生成式人工智能的全部潜力。通过与亚马逊云科技的合作,NVIDIA已经创建了一个生态系统,使企业能够利用这项变革性技术的力量,提高运营效率,增强客户体验,并在众多行业中推动创新。

下面是一些演讲现场的精彩瞬间:

Jensen Huang,NVIDIA 公司的首席执行官,探讨了该公司的人工智能平台以及与 亚马逊云科技 的合作,强调了像 ChatGPT 这样的生成式人工智能对广泛领域的影响。

4e33358ae870aca02d95b14304197d6d.png

NVIDIA 首席执行官强调了与 亚马逊云科技 的紧密合作伙伴关系,包括 NVIDIA GPU 实例、DGX Cloud、NVIDIA Enterprise、NVIDIA NIM 和 NVIDIA Omniverse,未来还将有更多合作。

b532271444b55f3af42f37c740cb0e78.png

Alpha Bio,一家药物发现公司,通过利用人工智能技术进行分子建模和动力学模拟,使其预测能力提高了 10 倍。

12d3fd88b3f8848a8bdb4c202d144989.png

NVIDIA 强调了组织在构建人工智能应用程序时面临的挑战,包括缺乏开发人员经验、成本与投资回报率的考虑以及基础设施限制,并强调了云计算在解决这些问题中的作用。

7ac54f9fec09f3dc3142602b11d7f60c.png

NVIDIA 在 亚马逊云科技 上推出了 DGX Cloud,为组织提供按需的专用基础设施,用于训练生成式人工智能模型,无需前期资本支出或现场专业知识。

e438a5baafe79279a23825339f222f10.png

NVIDIA 采用了从芯片到服务器、超级计算机以及合作伙伴参考设计的全面方法,在数据中心规模上进行构建。

04a1908d487de4fef061e93562593f7c.png

NVIDIA 展示了与 亚马逊云科技 长期合作的成果,并邀请与会者探索他们的展位,观看酷炫的演示,并通过二维码了解更多关于他们合作伙伴关系的信息。

5ea8cf3a1380bc5b849510b735584b96.png

总结

在一段引人入胜的叙述中,来自NVIDIA的Dave Salvator揭示了生成式人工智能的变革力量,以及该公司与亚马逊云科技合作来发挥其潜力。他生动地描绘了“ChatGPT时刻”如何将生成式人工智能推向全球聚光灯,在各行各业掀起了一股创新和实验的浪潮。

Salvator深入探讨了生成式人工智能的无数应用,从提高运营效率和客户体验,到促进业务差异化。他强调了加速和性能的关键作用,突出了NVIDIA不懈追求可持续和高效架构(如液冷Blackwell平台)的努力。

Salvator推出了一系列具有突破性的公告,介绍了DGX Cloud在亚马逊云科技上的可用性、与亚马逊云科技 GreenGrass IoT的无缝集成,以及将NVIDIA的Triton推理服务器纳入SageMaker容器缓存。他强调推动这一合作伙伴关系的协作精神,NVIDIA的软件工程师不懈努力优化性能,为下一代模型铺平道路。

随着叙述的展开,Salvator揭开了Project Seba的面纱,这是一个拥有20,700个Blackwell GPU的庞大系统,有望推动NVIDIA在尖端生成式人工智能模型、主动模型和多模态应用方面的研究。他以NVIDIA的路线图画上句号,这是一个不懈的创新节奏,有望重塑人工智能和计算的格局。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值