Linux上的多机多卡训练【重要原则】

深耕AI

已于 2024-04-02 09:04:37 修改

阅读量319

点赞数

文章标签： ubuntu

于 2023-06-05 12:14:09 首次发布

本文链接：https://blog.csdn.net/weixin_45037357/article/details/131045534

版权

文章讲述了在Linux系统中进行多机多卡深度学习训练的关键步骤，包括数据集和训练代码的路径一致性、虚拟环境和模块版本控制、网络连接与通信配置、硬件设备同步以及监控与调试。强调了保证环境和数据的一致性对训练过程的重要性。

摘要由CSDN通过智能技术生成

在这里插入图片描述

Linux上的多机多卡训练总体原则如下：

1.保证数据集图像的绝对路径一致
2. 保证训练代码的绝对路径一致
3. 保证虚拟环境中安装的模块版本一致
4. 保证两台机器，都连接在了同一个wifi下

以下是详细说明：

步骤一：统一数据集配置

1. 绝对路径一致性
在多台机器上，首先确保数据集的存放位置具有相同的绝对路径。这是因为深度学习训练通常依赖于相对或绝对路径来访问数据，若路径不一致，会导致某些机器无法找到对应的数据文件。一种可行的做法是在每台机器上挂载同一网络存储（例如NFS或HDFS），或者通过rsync等工具将数据集同步至相同目录下，确保所有机器都能通过相同的路径访问到完整的数据集。

2. 数据集内容一致性
不仅路径要一致，还要确保每台机器上的数据集内容完全相同，避免因为数据差异导致模型训练结果不一致。这可以通过在数据预处理阶段统一执行划分、清洗和格式转换操作，并且在分发数据集时采用checksum校验机制来验证数据完整性。

步骤二：训练代码与环境管理

1. 训练代码绝对路径一致性
同样，训练代码也应该在各台机器上有相同的部署路径。建议采用版本控制系统（如Git）来管理和同步代码，并确保所有机器拉取的是同一分支或提交版本。此外，通过bash脚本或makefile统一编译和运行命令，确保代码执行的一致性。

2. 虚拟环境与模块版本控制
使用Conda或Virtualenv创建和管理隔离的Python环境，在所有机器上安装相同版本的深度学习框架（如PyTorch或TensorFlow）、加速库（如cuDNN、NCCL）、以及其他必要的第三方库。使用requirements.txt或environment.yml文件来记录环境配置，并在每台机器上严格按照此文件重新创建或更新虚拟环境，确保各个模块版本严格一致。

步骤三：网络与通信配置

1. 网络连接与同步
尽管提到保证两台机器连接在同一WiFi下，但在实际的多机多卡训练中，往往需要高速低延迟的局域网环境，如通过交换机或InfiniBand网络互联。确保所有机器间的网络通信稳定、高效，可通过ifconfig或ip addr检查网络配置，设置静态IP地址，并适当调整防火墙规则以允许必要的通信流量。

2. 参数服务器与分布式训练
使用分布式训练框架如Horovod、TensorFlow Distributed或PyTorch的DataParallel/DistributedDataParallel，配合加速工具如Accelerate或DeepSpeed，配置参数服务器或Ring Allreduce策略来协调多机多卡之间的梯度同步与优化。