DataParallel(model)的相关研究

最新推荐文章于 2024-04-23 22:44:51 发布

xdhsCS_cv_ml

最新推荐文章于 2024-04-23 22:44:51 发布

阅读量624

点赞数 1

文章标签：深度学习神经网络大数据

本文链接：https://blog.csdn.net/xdhsCS_cv_ml/article/details/114367336

版权

DataParallel(model)的相关研究

2021-03-04

前提/已知：DataParallel 可以用于深度学习的多GPU并行计算
问题：那如果先用2个GPU来 training DataParallel(model)并保存权重(weights)，再load该权重到使用4个GPU来 training 的 DataParallel(model) 上，会不会报错？

探究/实验设计：

先用2gpu训练一个模型两天，并保存整个DataParallel(model)而非model的权重。
然后，用 1 个GPU初始化 DataParallel(model)，开始导入第一步保存的权重。查看是否可以运行。

检测标准：第二步中的导入能否实现
实验结果：不能运行

实验结论：会报错。所以使用DataParallel后，保存model weights时不要直接使用model.state_dict()，换成model.module.state_dict()。因为这样可以仅仅保存model的weights，则不受训练时GPU数目变动的影响。适合计算机资源不足，断断续续运行train代码的情况。但不确定没有 DataParallel 的 weights 会不会影响到 model performance。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xdhsCS_cv_ml

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

DataParallel layers (multi GPU)

doublechenchenchen的博客

05-17

1499

import torch.nn as nnimport torch.nn.parallelimport torch.backends.cudnn as cudnnmodel = nn.DataParallel(model)

pytorch单机多卡：从DataParallel到distributedDataParallel

weixin_39718268的博客

03-22

1万+

pytorch单机多卡：从DataParallel到distributedDataParallel 最近想做的实验比较多，于是稍微学习了一下和pytorch相关的加速方式。本人之前一直在使用DataParalle

3 条评论您还未登录，请先登录后发表或查看评论

nn.DataParallel

最新发布

Zsusan7的博客

04-23

600

nn.DataParallel 是 PyTorch 中的一个模块，用于在多个 GPU 上并行运行模型。当有多个 GPU 并且想要利用它们来加速训练或推理时，这个模块会非常有用。nn.DataParallel 通过对模型中的每个子模块进行复制，并将输入数据分割成多个部分，然后在每个 GPU 上并行处理这些部分来实现并行化。

关于引入model的DataParallel

weixin_41529093的博客

06-16

262

仅作为记录，大佬请跳过。 DataParallel便于gpu并行进行。引入模型采用： image = Variable(images[:, j, :, :].unsqueeze(0).cuda()) output = model(image.cuda()) print(output)

加载模型参数到使用 DataParallel(model) 的模型的两种方法的代码

xdhsCS_cv_ml的博客

03-05

924

load model weights into DataParallel(model) 的两种方法的代码方法一 G = Generator().to(device) G.load_state_dict(torch.load(args.model_path)) G = nn.DataParallel(G) # 这样在传递时 G 的参数会被重置吗？经测试，没有明显差别方法二 G = Generator().to(device) G = nn.DataParallel(G) G.module.load_sta

PyTorch并行与分布式(三)DataParallel原理、源码解析、举例实战

小小何先生的学习之旅

12-12

3896

文章目录简要概览源码解析实例简要概览 pytorch官方提供的数据并行类为： torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0) 当给定model时，主要实现功能是将input数据依据batch的这个维度，将数据划分到指定的设备上。其他的对象(objects)复制到每个设备上。在前向传播的过程中，module被复制到每个设备上，每个复制的副本处理一部分输入数据。在反向传播过程中，每个副本module的

Efficient Traffic Estimation With Multi-Sourced Data by Parallel Coupled Hidden Markov Model

02-08

为了解决上述问题，本文提出了一种结合社交媒体信息和GPS探针数据的高效交通流量估计算法——并行耦合隐马尔可夫模型（Parallel Coupled Hidden Markov Model, PCHMM）。 1. **数据收集与预处理**：首先，从Twitter...

RNN与torch DataParallel的爱恨情仇

BodyCsoulN的博客

03-11

1633

torch.nn.DataParallel是通常用来多gpu加速的一个torch包。在我的实验过程中，发现了很多很多的bug。在训练RNN模型时，由于RNN模型一般将batch_size放在第二个维度(输入、state)。DataParallel会将一个batch的数据切分开来，然后放到多个gpu上，默认按照第一维度进行切分（可以通过dim进行更换）。这里的问题就在于：输入X是我们自己定义的，所以维度可以进行控制。 state向量一般是由RNN layer自己生成，所以batch_size必然在第二个

model_parallelism：测试pytorch模型的并行性

02-15

PyTorch提供了`torch.nn.DataParallel`和`torch.nn.parallel.DistributedDataParallel`（DDP）来实现数据并行，但模型并行通常需要自定义实现。可以使用`nn.ModuleList`和`nn.Sequential`来组织模型结构，并结合`...

ABAQUS粘聚力模型(-Cohesive-Model-)-应用小结

11-23

根据给定的信息，本文将对LAMMPS（Large-scale Atomic/Molecular Massively Parallel Simulator）软件的基本使用方法以及ABAQUS粘聚力模型的应用做一个详细的知识梳理与总结。 ### LAMMPS概述 LAMMPS是一种开源...

pytorch 使用DataParallel 单机多卡和单卡保存和加载模型时遇到的问题

我亦是行人

11-12

3860

首先很多网上的博客，讲的都不对，自己跟着他们踩了很多坑 1.单卡训练，单卡加载这里我为了把三个模块save到同一个文件里，我选择对所有的模型先封装成一个checkpoint字典，然后保存到同一个文件里，这样就可以在加载时只需要加载一个参数文件。保存： states = { 'state_dict_encoder': encoder.state_dict(), 'state_dict_decoder': decoder.state_dict(), } torch.s

mmdetectionv2.8 踩坑

baidu_40840693的博客

05-07

2648

以下是自己配置v2.8遇到的一些问题 mmdetv2.8今天首次尝试遇到的问题 1.最新版v2.8使用mmcv-full,不再是mmcv 2.mmcv-full现在修改为与CUDA和pytorch具备对应性,版本安错了也不行 3.我的环境是cuda10.0 torch1.4.0 在其官方的下载地址上,没有该文件 https://download.openmmlab.com/mmcv/dist/cu100/torch1.4.0/index.html 里面没有mmdetv2.8用到的mmcv==1.2.4.

PyTorch-4 nn.DataParallel 数据并行详解

热门推荐

海尔兄弟的博客

03-11

1万+

本文源自 http://studyai.com/pytorch-1.4/beginner/blitz/data_parallel_tutorial.html 在本教程中，我们将学习如何使用多个GPU： DataParallel 的用法. 与PyTorch一起使用GPU非常容易。您可以将模型放在GPU上: device = torch.device("cuda:0") model...

【pytorch记录】模型的分布式训练DataParallel、DistributedDataParallel

magic_ll的博客

06-27

1902

使用多GPU对神经网络进行训练时，pytorch有相应的api将模型放到多GPU上运行。 torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.local_rank]) 两者的区别： nn.DataParallel 使用单进程控制，将模型和数据加载到多个GPU中 gpus=[0,1] torch.nn.DataParallel(model.cuda(), decice_ids=gpus, output_device=gpu

DataParallel 和 DistributedDataParallel 的区别和使用方法

Golden-sun的博客

04-12

8615

1.DataParallel DataParallel更易于使用（只需简单包装单GPU模型）。然而，由于它使用一个进程来计算模型权重，然后在每个批处理期间将分发到每个GPU，因此通信很快成为一个瓶颈，GPU利用率通常很低。 nn.DataParallel要求所有的GPU都在同一个节点上（不支持分布式），而且不能使用Apex进行混合精度训练。 https://zhuanlan.zhihu.com/p/113694038 1.DistributedDataParallel支持模型并行，而DataParallel

多卡训练DataParallel和DistributedDataParallel的使用和区别

10-11

3496

分布式训练，DataParallel，DistributedDataParallel，DP，DDP，init_process_group，单机单卡，单机多卡，多机多卡

PyTorch DataParallel的一些坑点和使用技巧

qq_43714612的博客

08-03

8363

1. 报错PyTorch DataParallel RuntimeError: expected device cuda:1 but got device cuda:0 原因是直接使用了DataParallel作为神经网络。 # 可能报错的写法 model = DataParallel(Res_Net()) out = model(input) # 解决办法 model = DataParallel(Res_Net()) model = model.modukle() out = model(input)

DataParallel使用

qq_37950540的博客

06-08

3482

DataParallel' object has no attribute https://github.com/yysijie/st-gcn/issues/83 self.model.extract_feature -> self.model.module.extract_feature pytorch 多GPU训练总结（DataParallel的使用） https://blog...

Pytorch分布式训练/多卡训练(一) —— Data Parallel并行(DP)

hxxjxw的博客

03-25

1万+

注意 .to(device)就是把数据从内存放到GPU显存

nn.DataParallel(model)什么意思

08-13

model = nn.DataParallel(model) # 使用 DataParallel 进行数据并行 optimizer = optim.SGD(model.parameters(), lr=0.001) criterion = nn.CrossEntropyLoss() # 训练代码... ``` 在这个例子中，`MyModel` 是...