【踩坑日记14】用accelerater实现单机多卡运行程序时，程序卡死。

一只_程序媛

已于 2024-04-15 19:21:26 修改

阅读量630

点赞数 8

文章标签：前端 linux python

于 2024-04-10 19:36:19 首次发布

本文链接：https://blog.csdn.net/weixin_47894469/article/details/137607666

版权

本文记录了在使用accelerater实现单机多卡运行程序时遇到的问题及解决过程。首先，程序在启动时卡死，通过调整运行语句解决了卡死问题。然而，程序在后续运行过程中又在特定语句处卡住。经过调试，发现是某语句导致，并通过注释掉该语句及其相关语句成功解决问题。

摘要由CSDN通过智能技术生成

问题描述1

输入运行语句：

CUDA_VISIBLE_DEVICES=2 accelerate launch 
--multi_gpu 
--mixed_precision 'fp16'
--machine_rank 0  
--main_process_ip 125.216.241.108  
--main_process_port 7236  
--num_machines 2 --num_processes 2 
./diff_prompter/ppo_prompter_ft.py 
--data ./data 
--gpt_path ./gpt2 
--trl_config ./diff_prompter/configs/ppo_config_ft.yml 
--checkpoint_dir .

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一只_程序媛

关注关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
【踩坑日记14】用accelerater实现单机多卡运行程序时，程序卡死。

调试程序，看看程序在哪一个语句中卡死。表示使用的线程数（卡数），我要使用单机多卡，所以。程序跑动了，但在某一处又卡住了。（n为所需要的卡数）。表示使用的机器数目，
复制链接

扫一扫

pytorch 多卡训练 accelerate gloo

jacke121的专栏

12-30

957

accelerate 多卡训练

分布式训练 - 单机多卡（DP和DDP）

最新发布

m0_52280920的博客

06-27

281

首先是按照默认方式生成default_config.yaml。解决办法：在tran.sh中加上机器的ip地址。发现程序不报错，但是卡在加载模型权重之前。

使用hugging face开源库accelerate进行多GPU训练（单机多卡）时，在保存模型结构的时候出现的问题

EstrangedZ的博客

10-14

1068

单机多卡训练出现 nboundLocalError: UnboundLocalErrorlocal variable 'epoch checkpoint’referenced before assignment:报错的解决方案

【BUG】使用accelerator运行分布式代码时卡住：Multi GPU process stuck

qq_44091004的博客

06-04

416

使用accelerator运行分布式代码时卡住：Multi GPU process stuck

【分布式训练】Accelerate 多卡训练，单卡评测，进程卡住的解决办法

凤凰于飞

08-02

1549

【我是自己写的评测方法，但是我找不到能让触发Trainer去用我的方法评测的路劲】，后来偶然的机会知道了accelerate库，这个库没有Trainer那么高级抽象，正适合我。于是我开始写print 观察这几个进程在哪里停住了，删掉评测部分看能不能正常运行（结果正常运行了），后来最终定位出了原因：只要在评测部分使用模型，例如 model(**input)就会在评测结束后卡住，评测的过程倒很正常。但是因为我这个项目的特殊性，我决定不多卡评测，也没必要，因为之前单卡评测就两分钟就出结果了。

「已解决」使用DDP多卡训练在All distributed processes registered. Starting with 8 processes卡死

CCCDeric的博客

10-23

551

【代码】「已解决」使用DDP多卡训练在All distributed processes registered. Starting with 8 processes卡死。

基于pytorch的单机多卡分布式训练源码

09-06

本教程将详细解释如何使用PyTorch实现单机多卡分布式训练，主要参考提供的源码文件`pytorch_ddp_train.py`。一、PyTorch分布式训练基础 1. **DistributedDataParallel (DDP)**: PyTorch 提供的 `torch.nn....

保姆教程白嫖GPU T4*2！Kaggle实现chatglm微调任务-单机多卡训练测试

05-27

在这里，我们特别关注的是T4 GPU，这是一种由NVIDIA推出的基于图灵架构的高性能显卡，特别适合深度学习任务，因其在处理大型神经网络时表现出的高效能和低延迟而受到欢迎。 ChatGLM是用于生成对话的语言模型，它...

「分布式训练」+ DDP单机多卡并行指南 PPT

04-10

DDP（Data Distributed Parallelism）是PyTorch中实现的一种分布式训练策略，特别适用于单机多GPU的场景。在这个"「分布式训练」+ DDP单机多卡并行指南"中，我们将深入探讨DDP的工作原理以及如何在实践中应用。 ...

Resnet实战：单机多卡DDP方式、混合精度训练

04-15

本例提取了植物幼苗数据集中的部分数据做数据集，数据集共有12种类别，模型使用最经典的resnet50，演示如何实现混合精度训练以及如何使用DDP的方式实现多卡并行训练。通过本文你和学到： 1、如何使用混合精度训练...

RFID.zip_RFID模块程序_rfid_rfid-rc522

09-20

在这个"RFID.zip"压缩包中，我们关注的核心是RFID模块的程序开发，特别是针对STC12C5A60S2单片机的实现。 STC12C5A60S2是一款低功耗、高性能的8051系列单片机，由宏晶科技生产。它具有较高的运行速度和丰富的内部...

(已解决)Ubuntu多显卡训练模型时程序卡死：torch torch 奈若何

行步至春深

09-26

2970

根因是cuda和pytorch的版本不匹配~经过这次最大的收获是理解了channel并学会了下载下安装包conda install --use-local 的安装方式

A100单机多卡大模型训练踩坑记录（CUDA环境、多GPU卡住且显存100%）

木尧大兄弟

04-28

7954

大模型A100单机多卡训练踩坑记录

Accelerate 多机多卡训练

09-08

408

参考：

使用hugging face开源库accelerate进行多GPU（单机多卡）训练卡死问题

EstrangedZ的博客

10-14

4687

单机多卡训练出现[E ProcessGroupNCCL.cpp:828] [Rank 1] Watchdog caught collective operation timeout: WorkNCCL(OpType=BROADCAST, Timeout(ms)=1800000) ran for 1808499 milliseconds before timing out.的解决方案

【分布式训练】单机多卡（一）：理论基础

sage_wang的博客

07-13

744

最近由于有模型训练的任务，老板对已有的单机单卡模型训练的时间不满意，觉得炼丹周期太长，让我用单机多卡来对模型训练进行优化加速。这两天看了点知乎、csdn、stackoverflow上面相关的文章和问题，发现里面的坑还不少。今天，我就给大家排排坑，介绍一下如何将已有的模型训练转成单机多卡的形式，来进行分布式训练。 1、总分分布式训练分为这几类： l按照并行方式来分：模型并行 vs 数据并行 l按照更新方式来分：同步更新 vs 异步更新 l按照分布式训练系统架构来分：Parameter Server Arc

单机单卡分布式运行和单机多卡分布式运行区别

06-01

3. 程序实现方式不同：单机单卡分布式运行需要通过启动多个相同的程序实例来进行分布式训练，而单机多卡分布式运行可以通过使用多线程或多进程来实现分布式训练。 4. 训练效率和速度不同：单机多卡分布式运行相对于...