COMPUTEX2023 | NVIDIA MGX 为系统制造商提供模块化架构，以满足全球数据中心多样化加速计算需求

最新推荐文章于 2024-08-05 15:57:37 发布

Steve Y

最新推荐文章于 2024-08-05 15:57:37 发布

阅读量368

点赞数

文章标签：架构云计算人工智能服务器

本文链接：https://blog.csdn.net/weixin_49849743/article/details/130978692

版权

NVIDIA推出了MGX服务器规范，旨在提供模块化参考架构，使系统制造商能快速制造多样化服务器机型，适用于AI、高性能计算和元宇宙场景。此平台包括多种设计，如HGX、OVX和CGX，支持不同工作负载。NVIDIA还展示了包含Grace和HopperGPU的系统，以及针对5G和电信应用的解决方案。MGX将与多个合作伙伴共同推出超过100种服务器设计，支持各种GPU、CPU和网络技术。

摘要由CSDN通过智能技术生成

NVIDIA MGX™ 服务器规范为系统制造商提供了一个模块化参考架构，以快速、经济高效地制造 100 多种服务器机型，适用于广泛的 AI、高性能计算和元宇宙应用。

本周在台湾举行的 Computex 展会上宣布了 MGX 多代服务器平台设计，台湾是世界上主要的组件和系统制造中心之一，也是无可争议的计算芯片制造和装配中心，Nvidia 希望为自己和世界上的 OEM 和 ODM 厂商提供更多便利，为自己和他们提供更好的利润。

自从 2016 年 4 月基于 “Pascal”P100 GPU 加速卡的 DGX-1 系统首次亮相以来，Nvidia一直在制造自己的服务器。Nvidia 决定这样做，去帮助加快上市时间，并为元器件和主板设计创造一个反馈循环；Nvidia 需要构建自己的超级计算机来运行其庞大的人工智能工作负载——这比让OEM或ODM做这件事更便宜——也是做出这一决定的一个因素。当时，Nvidia 可以生产的大部分 Pascal GPU 都在向超大规模和云制造商以及一些 HPC 中心发货，而DGX-1则由英伟达以优惠方式出售，以便研究人员和科学家可以掌握这些GPU加速系统。2017 年 5 月，当 DGX-1 机器被更新为两个月前宣布的 "Volta "V100 GPU 加速卡时，情况仍然如此。2020 年 5 月，DGX-A100 系统紧随其后，使用了 "Ampere "A100 GPU，当然还有 DGX-H100 设计，它通过 NVLink 交换结构进一步扩展，去年与 "Hopper "H100 GPU 加速卡同时推出，本周刚刚更新了 DGX-GH200 系统的 CPU-GPU 混合设计。

你不可能买到最新的 DGX-H100 和 DGX-GH200 机器中使用的 H100 SXM5 或 NVSwitch 3 ASIC。用于 CPU、GPU 和 NVSwitch 互连的系统板是作为一个单元出售给超大规模企业和云计算建设者及其 ODM 供应商的，所有的组件都已生产和测试，同时也作为预装组件出售给 OEM 厂商，他们再将这些组件放入其系统中。如果你想建立自己的系统，你可以从 Nvidia 购买 PCI-Express 版本的 GPU 加速器或 Quantum InfiniBand 或 Spectrum Ethernet ASIC，但对于在 NVSwitch 内存结构上运行的高端产品，你必须采用这些预装的组件，它们被称为 HGX。

在通过 HGX/DGX 在一定程度上标准化了系统的内部组件后，Nvidia 现在希望标准化围绕这些组件的外壳，以加快所有 ODM 和 OEM 的上市时间，并使最终的系统可以在现场最大程度上升级，因为未来的架构变化将随之而来。

简而言之，这就是MGX努力的目标。

去年5月，当Nvidia披露HGX Grace和HGX Grace-Hopper系统设计原型时，我们对MGX的初始设计有了一点了解。这些不仅仅是系统板，而是完整的机架式服务器设计：

MGX 标准化工作将涵盖 DGX/HGX 数据中心计算平台、OVX 元宇宙托管平台以及 CGX 云图形和游戏平台，以下是 Nvidia 表示 Grace CPU 和各种 GPU 加速器组成的方式：

以下是它本周在台北国际电脑展上展示的MGX设计：

左边的是一个Grace-Grace超级芯片，搭配四个GPU加速器。中间的系统有两个X86 CPU，两个ConnectX网络接口和八个GPU加速器，右边的系统有一对水冷计算引擎（我们猜测是Grace-Hopper超级芯片）和两个网络接口卡。

该公司的网站和预先介绍并没有像Nvidia联合创始人兼首席执行官黄仁勋在其主题演讲中那样对这些进行解释，当时他从2U机箱开始介绍了MGX系统的一些方面：

当您添加两个X86 CPU，四个L40 GPU加速器，一个BlueField-3 DPU，一对ConnectX-7网络接口卡，并保留六个PCI-Express 5.0插槽时，您将获得一个OVX服务器，用于加速Nvidia的Omniverse虚拟现实数字孪生软件堆栈：

你可以把这对X86 CPU拿出来，放进一个Grace-Grace超级芯片和所有相同的东西（少了一个PCI-Express 5.0插槽），你就可以得到OVX服务器的这个版本：

如果你想为渲染或游戏或适度的人工智能推理工作负载做云图形，即Nvidia所说的CGX机器，你可以从MGX机箱开始，放入一个Grace-Grace超级芯片，十个L4 GPU加速器，一个BlueField-3 DPU，并有11个PCI-Express 5.0插槽开放，它看起来像这样：

如果你需要驱动更密集的人工智能推理工作负载，特别是LLM和DLRM，那么你抓住4U版的MGX机箱，放入一对X86 CPU，8个双宽的H100 NVL加速器，一对BlueField-3 DPU，并留有10个PCI-Express插槽，你就可以得到这个：

对于5G用例，考虑更薄更小，就像几十年来符合NEBS标准的电信机器一样。以下是Grace-Hopper 5G arial服务器设计的样子：

这是一个1U的MGX pizza机箱，带有一个Grace-Grace超级芯片，一对BlueField-3 DPU，有四个开放的PCI-Express 5.0插槽供外围设备使用。而对于电信公司和其他服务提供商狭小的存在点（POP）空间，你必须像这样将机箱的高度增加一倍，长度减少一半：

不管是什么原因，其中一个PCI-Express插槽配置了一个ConnectX-7网卡以及一个BlueField-3 DPU。(外形因素不应该影响网络，所以我们推测Nvidia只是在展示选项）。

如果你和我们一样想知道，今年晚些时候进入英国GW4集体的 " Isambard 3 "超级计算机中的 "白盒 "服务器节点可能是什么样子，现在我们知道了：

而对于不能依靠空气冷却（或像Isambard 3那样在机架上进行液体冷却）的非常密集的HPC机器，MGX有一个带有一对Grace-Grace超级芯片的液体冷却版本：

Nvidia一开始就有八个关键的MGX合作伙伴，其中许多是主板制造商和ODM系统制造商。其中包括华擎、华硕、技嘉、Pegatron、广达云技术和超微。我们的想法是提供超过一百种不同的服务器设计，可以针对广泛的工作负载，涵盖人工智能、高性能计算、数据分析、数字双胞胎、云基础设施、云游戏和5G网络。

MGX参考架构将包括具有1U、2U和4U机架机柜的系统，可提供空气和液体冷却。这个想法是为了支持整个Nvidia GPU加速器组合，首先是Hopper H100计算引擎和 "Lovelace "L4和L40 AI推理和图形加速器。在CPU方面，Grace-Grace超级芯片（它还没有被命名，但GG200是有意义的）和Grace-Hopper超级芯片（称为GH200）是核心，但X86处理器，估计来自英特尔和AMD，将包括在MGX设计中。(据我们所知，你不可能只有一个Grace CPU，如果我们必须为芯片命名，我们会称之为CG100，如果我们要与Nvidia迄今为止为其数据中心计算引擎命名的方式保持一致，我们会称之为C100作为其营销名称）。至于网络，MGX的规格从ConnectX-7混合InfiniBand/Ethernet网络接口卡和BlueField-3 DPU开始。

Steve Y

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
COMPUTEX2023 | NVIDIA MGX 为系统制造商提供模块化架构，以满足全球数据中心多样化加速计算需求

NVIDIA MGX™ 服务器规范为系统制造商提供了一个模块化参考架构，以快速、经济高效地制造 100 多种服务器机型，适用于广泛的 AI、高性能计算和元宇宙应用。
复制链接

扫一扫