【MindSpore Profiler】【性能调优】GPU分布式训练卡死

最新推荐文章于 2024-08-28 16:09:53 发布

小乐快乐

最新推荐文章于 2024-08-28 16:09:53 发布

阅读量955

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/weixin_45666880/article/details/125456561

版权

问题描述：

【功能模块】

MindSpore提供的Bert训练脚本(https://gitee.com/mindspore/models/tree/master/official/nlp/bert)
GPU分布式训练
MindSpore的Profiler工具

【操作步骤&问题现象】

1、在单机四卡环境下，使用官方提供的脚本进行训练，参数配置未改变

2、在run_pretrain.py文件中调用Profiler工具记录性能数据（代码中第24，25行）

3、发现训练过程卡死不动，程序未报错退出，此时GPU利用率为0，CPU利用率很高

4、相关环境为

python 3.8.13, mindspore 1.7.0, mindinsight 1.7.0
cuda 11.1, nccl 2.7.8, cudnn 8.0.4
单机四卡训练

【截图信息】

卡死时状态

解答：

从日志看，应该在正常执行，只是用profiler之后，会改成同步执行，网络执行速度就会比较慢。一般情况下，大网络，只会跑几个step用来分析性能，不会长期跑。 step 收集，可以通过callback实现

from mindspore.train.callback import Callback class StopAtStep(Callback):

如下有配置方案 https://www.mindspore.cn/mindinsight/docs/zh-CN/r1.7/performance_profiling_gpu.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小乐快乐

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

分布式训练反而速度更慢了？

NLP与推荐算法

09-16

5521

hi我是菜鸟小明哥，之前实现了ytb版本的分布式计算，而且对比了旧版本的效果，发现在训练时间上面旧版本更厉害，不到一分钟只用一个卡即可完成训练，而新版本同样的样本需要1个小时，woc，这是天地差别啊。因此有必要针对其中问题进行改进，不能出现没道理的现象。 For Recommendation in Deep learning QQ Second Group 102948747 For deep learning QQ Group 629530787 I'm here waiting for you 不接.

MindSpore性能调试设计

JIAJIA14754545的博客

12-12

214

为了直观地展现网络模型各维度的性能信息，为我们提供易用、丰富的性能分析功能，帮助我们快速定位网络中性能问题。 Profiler架构设计这一章将介绍Profiler的架构设计，第一节从整体Profiler的角度出发介绍其上下文交互关系，第二节将打开Profiler内部，介绍模块层架结构以及模块划分，第三节将介绍模块间的交互调用关系。在整个使用过程中的上下文环境如下图所示：上图所示，Profiler与其他部分的交互包括：在训练脚本中调用MindSpore的Profiler启动收集性能数据的

参与评论您还未登录，请先登录后发表或查看评论

pytorch多卡分布式训练卡住的问题

剑启郁兰的博客

04-28

1548

最近需要模型进行多任务学习，完成代码后单卡跑是没有问题的。但是多卡跑基本上会出现卡在第一个迭代的情况。忙了一天总算是解决了。实际上，尝试了很多种方案，最后发现问题出现在这里。这部分内容具体参考如下。我的模型不执行前者，因而我是把这部分给删了，从而解决。知道原因，解答方案也比较明了，

训练卡和推理卡

wt_better的博客

08-28

1160

总的来说，GPU训练卡和推理卡根据深度学习的不同阶段进行了针对性的优化，前者更注重计算能力和精度，后者则在保证一定精度的基础上，更强调效率、低延迟和能效比。：这是NVIDIA专为数据中心设计的高性能计算GPU，如Tesla V100、A100等，它们拥有大量的CUDA核心和高带宽内存（HBM），非常适合大规模的深度学习模型训练。：AMD的竞争产品，如Radeon Instinct MI25、MI50等，同样针对数据中心的计算密集型应用，提供高速的计算性能和大内存容量，支持深度学习训练。

【问题及解决】训练一段时间卡住GPU Memory Usage满但是GPU-Util 是0%

kk的博客

03-03

1546

猜测这次的无故卡死是因为多线程读取数据导致内存爆炸，大内存很重要，这里8和4都试过了，因此选择调小num_works：8->4->2。扩充了数据集的种类并且整合之后使用yolov7nohup挂起训练，结果到了epoch45的时候卡住了，一直不动。居然是因为找不到图像，应该是我数据处理步骤较多，有的没检查清楚，结果导致了这样的结果，万万没想到啊无语死了。Workers继续调小，变成2，结果还是会出现一样的情况。可以看到显存使用几乎是满的，但是GPU使用率一直是0.结果卡了好久，我发现出现报错了！

分布式训练遇到的问题

u014073556的博客

05-03

887

AllReduce架构 All attempts to get a Google authentication bearer token failed, returning an empty token. Retrieving token from files failed with "Not found: Could not locate the credentials file.". Retrieving token from GCE failed with "Failed precondition:

基于多语言集成的developtools_profiler性能调优模块设计源码

最新发布

10-08

该项目为高性能调优模块设计源码，采用多语言集成，涵盖C++、C、TypeScript、Shell、Python、JavaScript、C和Rust等多种编程语言，共包含1303个文件，其中C++文件403个，头文件241个，Ets文件152个，Gn文件120个，...

.NET性能调优之一：ANTS Performance Profiler的使用介绍

10-27

本系列文章主要会介绍一些.NET性能调优的工具、Web性能优化的规则（如YSlow）及方法等等内容。成文前最不希望看到的就是园子里不间断的“哪个语言好，哪个语言性能高”的争论，不多说，真正的明白人都应该知道这样的...

sqlserver性能调优经验总结

09-10

在实践中，SQLServer提供了多种工具进行性能监控和调优，如SQL Server Profiler用于跟踪和分析SQL语句的执行，Database Engine Tuning Advisor帮助建议索引和统计信息的优化，以及Performance Monitor和Resource ...

Oracle分布式数据库性能调优：提升分布式数据库响应速度

Oracle分布式数据库性能调优概述 分布式数据库是一种将数据分布在多个物理位置的数据库系统。与集中式数据库相比，分布式数据库具有可扩展性、高可用性和容错性等优势。然而，分布式数据库的性能调优也更加复杂。 ...

android studio gpu profiler,Android GPU Profiler - Northern Wind

weixin_29006701的博客

05-27

736

上一篇有提到 Unity 內建的的 Profiler 在繪圖分析方面有所不足之處，但這個可以用 Android 各家 GPU 原廠的工具來補足。因為每一家的工具都只能拿來分析自家的晶片，所以最一開始要先了解自己的機器用的是哪家的 GPU 。一般來講常見的有Qualcomm: AdrenoIntel: HD GraphicsImagination: PowerVRARM: MaliNvidia: T...

在使用Tensorflow 分布式训练出现的Non-OK-status: GpuLaunchKernel问题

handsofgod的博客

05-09

1051

项目场景：使用Tensorflow的keras进行模型构建，然后使用tf.distribute.MirroredStrategy进行多gpu训练问题描述在调试完其他部分然后开始训练，执行model.fit语句时报出了下面的错误，之后程序就停止运行了。 Non-OK-status: GpuLaunchKernel( SwapDimension1And2InTensor3UsingTiles<T, NumThreads, TileLongSide, TileShortSide>, total

【踩坑日记14】用accelerater实现单机多卡运行程序时，程序卡死。

weixin_47894469的博客

04-10

848

调试程序，看看程序在哪一个语句中卡死。表示使用的线程数（卡数），我要使用单机多卡，所以。程序跑动了，但在某一处又卡住了。（n为所需要的卡数）。表示使用的机器数目，

model在CPU上能正常运行在GPU上却卡住

cloudless_sky的博客

02-20

991

GPU pytorch 深度学习

【分布式训练】Accelerate 多卡训练，单卡评测，进程卡住的解决办法

凤凰于飞

08-02

1794

【我是自己写的评测方法，但是我找不到能让触发Trainer去用我的方法评测的路劲】，后来偶然的机会知道了accelerate库，这个库没有Trainer那么高级抽象，正适合我。于是我开始写print 观察这几个进程在哪里停住了，删掉评测部分看能不能正常运行（结果正常运行了），后来最终定位出了原因：只要在评测部分使用模型，例如 model(**input)就会在评测结束后卡住，评测的过程倒很正常。但是因为我这个项目的特殊性，我决定不多卡评测，也没必要，因为之前单卡评测就两分钟就出结果了。

「已解决」使用DDP多卡训练在All distributed processes registered. Starting with 8 processes卡死

CCCDeric的博客

10-23

694

【代码】「已解决」使用DDP多卡训练在All distributed processes registered. Starting with 8 processes卡死。

(已解决)Ubuntu多显卡训练模型时程序卡死：torch torch 奈若何

行步至春深

09-26

3092

根因是cuda和pytorch的版本不匹配~经过这次最大的收获是理解了channel并学会了下载下安装包conda install --use-local 的安装方式

A100单机多卡大模型训练踩坑记录（CUDA环境、多GPU卡住且显存100%）

木尧大兄弟

04-28

8796

大模型A100单机多卡训练踩坑记录

ANR 优化实践系列4 Barrier导致主线程假死

liuwg1226的专栏

07-06

674

概述前文，我们通过线上案例对影响 ANR 问题的六大场景进行剖析，这几类场景基本覆盖了线上大部分问题。同时我们选取了较多 NativePollOnce 场景的案例，便于大家更好理解，ANR 时看到的 NativePollOnce 场景的问题，并不是导致 ANR 的根本问题。下面要介绍的这类问题，Trace 现场依然是 NativePollOnce 信息，但与前几类问题不同的是，这类问题真的发生在 NativePollOnce 场景，接下来就看看到底是什么原因导致的。主线程 Trace 堆栈：分析思

使用ANTS Performance Profiler进行.NET性能调优

ANTS Performance Profiler是一个强大的工具，它使.NET性能调优变得更为直观和有效。通过深入了解并运用其各项功能，开发者能够提升应用的运行效率，改善用户体验，从而在竞争激烈的市场中保持优势。不过，性能调优...