在OpenShift平台上验证NVIDIA DGX系统的分布式多节点自动驾驶AI训练

最新推荐文章于 2024-03-03 11:17:27 发布

wujianming_110117

最新推荐文章于 2024-03-03 11:17:27 发布

阅读量453

点赞数

分类专栏：深度学习视频推理 GPU，NPU，XPU，DPU，MPU

吴建明

本文链接：https://blog.csdn.net/wujianing_110117/article/details/109982574

版权

本文详细介绍了如何在OpenShift平台上验证使用NVIDIA DGX系统进行分布式多节点的自动驾驶AI训练。内容涵盖数据并行训练、OpenShift集群配置、GPU启用、MPI操作符的使用，以及如何通过MPIJob资源聚合优化计算效率。

摘要由CSDN通过智能技术生成

在OpenShift平台上验证NVIDIA
DGX系统的分布式多节点自动驾驶AI训练

自动驾驶汽车的深度神经网络（DNN）开发是一项艰巨的工作。本文验证了DGX多节点，多GPU，分布式训练在DXC机器人驱动环境中运行。

还使用了一个机器人学习平台来驱动深度学习（11.3）的工作负载。目前，OpenShift 3.11已部署在许多大型GPU加速的自动驾驶（AD）开发和测试环境中。这里显示的方法同样适用于新的OpenShift版本，并且可以转移到其他基于OpenShift的集群中。

DXC Robotic Drive是一个自动驾驶的数据驱动开发平台，可大大降低风险，加快ADAS/AD功能的开发、测试和验证，以支持2级以上5级自主功能。它是目前已知的最大的EB级开发解决方案，利用业界成熟的本地和云基础设施、方法、工具和加速器实现高度自动化的广告开发过程。

互操作性测试环境是运行OpenShift 3.11和4.3的机器人驱动创新实验室。

DL workloads at scale

数据并行（dataparallelishm）是最常用的扩展DL工作负载的设计模式。关于如何加速视觉和递归神经网络，有许多参考文献和实践。

DL模型被多次实例化，并且数据在这些实例中并行传输。实例彼此交换渐变，以协同工作，而不是独立工作。

这是来自高性能计算（HPC）领域的消息传递接口（MPI）框架的经典计算模式。因此，在众所周知的MPI的帮助下对这些工作负载进行编排是很简单的。MPI还可以轻松扩展到多个节点之外。

支持多GPU的DL框架，如PyTorch和TensorFlow，在任何项目开始时都非常适合使用，以确保工作负载可以使用单个GPU工作站直到大型GPU集群。

这些框架还支持使用MPI本机进行数据并行训练，并且可以使用MPI工具（如mpirun或mpiexec）触发工作负载。数据并行模式的多种实现都遵循这种模式，比如Horovod。

RedHat OpenShift Container Platform（OCP）是基于Kubernetes的Docker或CRI-O运行时容器构建的平台即服务。OpenShift专注于安全性，并且确实包括了对上游Kubernetes的缺陷、安全性和性能问题的修复。作为Kubernetes，OpenShift允许在RedHat的支持下大规模地部署和管理集群。

Kubernetes和OpenShift可以轻松地处理MPI工作负载。一个集成以Kubeflow MPI操作符的形式存在，它在后台协调资源并提高工作负载。

图1显示了使用两个DGX-1系统的DL工作负载。在这种情况下，有16个单独的进程。在Horovod中，它们被赋予一个名为rank的唯一ID来区分它们：rank 0到rank
15。所有单独的进程在输入数据的不同部分并行工作，并交换它们的梯度以协同工作。

在这里插入图片描述