【MindSpore】多卡训练保存权重问题

最新推荐文章于 2022-11-04 15:07:08 发布

小乐快乐

最新推荐文章于 2022-11-04 15:07:08 发布

阅读量408

点赞数

文章标签： python 人工智能深度学习机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45666880/article/details/126059063

版权

问题描述：

多卡训练的epoch更多吗？单卡训练只需要5个epoch就可以训练好，8卡训练反而需要85epoch?

训练采用数据并行模式。

如下图，我按rank id分开保存的权重是单卡训练的还是多卡合并的结果？/0/crnn-85_4.ckpt和 /1/crnn-85_4.ckpt是同样的吧？

数据并行，每张卡上的ckpt数据是一样的。

/0/crnn-85_4.ckpt和 /1/crnn-85_4.ckpt 应该是一样的。(只有bn的moving_mean和moving_variance可能有差别，但是不影响推理）

单卡训练只需要5个epoch就可以训练好，8卡训练反而需要85epoch?
这个结论是如何来的呢？比较loss值？

每隔一定step 验证一次模型，发现多卡训练反而需要更多epoch才能达到同样精度.单卡可以5epoch达到0.9，多卡需要40-50epoch。学习率，batchsize不变情况下

我的数据集很小，训练集只有5000样本。batchsize是32.验证码集样本500. 学习率是0.0001。是不是数据集小了，切分数据集反而导致每张卡更难收敛，需要的epoch更多？

解决方案：

batch size一致，是总batch一致，还是单卡的bs和数据并行的其中一张卡bs一致呢。如果是第二种情况，那么数据并行的总bs是比单卡大的，所以收敛会变慢，需要适当调整学习率

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【MindSpore】多卡训练保存权重问题

0/crnn-85_4.ckpt和/1/crnn-85_4.ckpt应该是一样的。每隔一定step验证一次模型，发现多卡训练反而需要更多epoch才能达到同样精度.单卡可以5epoch达到0.9，多卡需要40-50epoch。batchsize一致，是总batch一致，还是单卡的bs和数据并行的其中一张卡bs一致呢。如果是第二种情况，那么数据并行的总bs是比单卡大的，所以收敛会变慢，需要适当调整学习率。/0/crnn-85_4.ckpt和/1/crnn-85_4.ckpt是同样的吧？...
复制链接

扫一扫

小乐快乐 CSDN认证博客专家 CSDN认证企业博客

码龄5年

921: 原创

9077: 周排名

3557: 总排名

33万+: 访问

: 等级

9733: 积分

294: 粉丝

340: 获赞

54: 评论

573: 收藏

私信

关注

热门文章

最新评论

MindSpore提供mindyolo套件训练时，预训练模型无法加载
m0_73356506: 你好,你训练过程中会出现loss跑的非常大吗
mindspore训练yolov5时，loss=nan
m0_45652556: 请问问题解决了吗，困扰我一个星期了
MindSpore 如何实现像Torch里面 retain_graph=True 的功能
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
mindspore lite 模型转换报错
这是一个机智的骚年: 大佬，这个问题具体是怎么解决的，需要检查哪里的pooling规格
在基于MindSpore Lite的猫狗分类实验中，模型将部署到手机上时没有自动生成文件夹，不知要ms模型放到哪个路径下
苦逼大学牲，: 我一开始是1.1.1版本的app，没有生成文件夹，后来用1.1.3版本有文件夹了。有一些手机不能打开Andriod文件夹，可以在设置->关于手机，连点版本号7次以上进入开发者模式，然后开发者模式->USB调试，用usb线连接电脑打开手机存储，找到Android/data/com.mindspore.classificationforpet/files，然后把pet.ms复制粘贴过去就行了，重新打开app就好了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。