NN模型设置--减小训练时的内存/显存占用

最新推荐文章于 2024-08-21 19:12:43 发布

whitenightwu

最新推荐文章于 2024-08-21 19:12:43 发布

阅读量2k

点赞数 1

分类专栏：算法的实际使用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wydbyxr/article/details/84784600

版权

算法的实际使用专栏收录该内容

43 篇文章 9 订阅

订阅专栏

1）kennel_stride

一种技术是使用较大的步幅来进行卷积内核，也就是说，我们应用不是每个像素的平铺卷积，而是每两个或四个像素（stride为2或4），以便产生较少的输出数据。
这通常用于输入层，因为这些使用大部分内存。
当然，大stride通常是配合大的kenel_size一起使用；而使用大的kenel_size是为了扩大感受野。
为什么在第一层的stride要这么大？

2）1*1kennel_size

减少内存占用的另一个技巧是引入1×1的卷积内核层，减少通道。例如64x64x256输入可以通过96 1×1内核减少到64x64x96的输入。

3）pooling

一个明显的技术是池化。一个2×2的池化层可以将该层的数据量减少4个，从而显着减少后续层的内存占用。
下采样：(NCHW -> (1/4)*NCHW)

4）batch_size

使用批量大小为64而不是128个内存消耗量。然而，培训也可能需要更长时间，特别是训练的最后阶段，使得准确的梯度变得越来越重要。大多数卷积操作也针对64或更大的小批量尺寸进行优化，从而从批量大小32开始，训练速度大大降低。因此，将小批量尺寸缩小到甚至低于32，只能作为最后的选择。

5）float32

另一个经常被忽视的选择是更改卷积网络使用的数据类型。通过从32位切换到16位，可以轻松地将内存消耗量减半，而不会降低分类性能。在P100特斯拉卡上，这甚至会给你一个巨大的加速。

6）减少全连接层

一般只留最后一层分类用的全连接层。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

whitenightwu CSDN认证博客专家 CSDN认证企业博客

码龄8年

478: 原创

2万+: 周排名

133万+: 总排名

207万+: 访问

: 等级

1万+: 积分

454: 粉丝

792: 获赞

218: 评论

3321: 收藏

私信

关注

热门文章

分类专栏

最新评论

训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
穆清plus: 有答案了吗
训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
qq_45915612: 我的理解是在一阶优化器的时候用小的batchsize，二阶优化器的时候用大的batchsize。博主的意思应该是，batchsize小的时候，数据方差大，相对大的batchsize来说噪声大梯度下降的波动大，在一阶优化器中还是可以接受的，甚至这些波动是让网络模型跳出局部最优点的一个闪光点，但是如果使用二阶优化器的话，梯度下降的波动会更剧烈（一顿乱跳，跳出了局部最优点，也跳过了全局最优点），就会比一阶更不稳定，loss可能会直接炸了。当然，这是我很粗浅的理解，不一定对。
训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
qq_45915612: 我想到的是不同的batchsize结果数据保存下来，再画图（我的理解是每次训练完一个网络只能设置一个batchsize，所以要等不同的结果出来了才能画在一张图上）
常用度量--MAE(平均绝对误差)和RMSE(均方根误差)
whitenightwu: 都是相对的。一般是与应用的benchmark相比，才有实际意义。
深度学习基础--卷积--加速的卷积运算
好き: 动不动就要加几句英文，而且都是没必要的，你专业术语弄成英文也就算了，你咋不全用英文写呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。