训练过程中显存不断增加

最新推荐文章于 2024-03-11 13:36:53 发布

l.a.l.a

最新推荐文章于 2024-03-11 13:36:53 发布

阅读量259

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/weixin_46842372/article/details/133826251

版权

训练一个模型，显存一直在不断增加....肯定是什么变量一直被保存在计算图里面。

经过排查发现，我从模型里返回了一个特征（因为这个特征后续要参与计算）。

但是feature没有参与loss计算，导致feature没有被反向传播到，一直保留在计算图中。

参考：

如何解决pytorch程序运行时内存消耗一直增加的问题？ - 浮生号的回答 - 知乎 https://www.zhihu.com/question/276797963/answer/2355051638

解决方法：

在将feature传出模型前，先detach()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

l.a.l.a

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

yolov8实战第二天——yolov8训练过程、结果分析（保姆式解读）

qq_34717531的博客

12-15

3万+

以逻辑回归举例，逻辑回归的输出是一个 0 到 1 之间的概率数字，因此，如果我们想要根据这个概率判断用户好坏的话，我们就必须定义一个阈值。因此，对于阈值为 0.5 的情况下，我们可以得到相应的一对查准率和查全率。选取合适的阈值点要根据实际需求，比如我们想要高的查全率，那么我们就会牺牲一些查准率，在保证查全率最高的情况下，查准率也不那么低。因此，为了找到一个最合适的阈值满足我们的要求，我们就必须遍历 0 到 1 之间所有的阈值，而每个阈值下都对应着一对查准率和查全率，从而我们就得到了 PR 曲线。

【PyTorch笔记】训练时显存一直增加到 out-of-memory？真相了！

热门推荐

fish_like_apple的博客

09-26

2万+

前言： { 现在的神经网络模型，动不动就爆内存。两年前我笔记本2G的显存都绰绰有余，现在16G的P100，24G的P40却还不够。更让我郁闷的是，在pytorch训练时，显存占用竟然会不断增加，可能刚开始训练时是正常的，但是放在那里，不知道什么时候它就突然来一句out of memory，然后就尥蹶子不干了，白白浪费了很长的时间。所以这个问题我确实需要搞清楚。 } 正文： ...

Pytorch训练过程中GPU显存不断增加的解决方案

qq_44811719的博客

05-16

5560

Pytorch训练过程中GPU显存不断增加的解决方案

pytorch训练过程显存一直增加的问题

weixin_45710187的博客

01-13

9164

之前遇到了爆显存的问题，卡了很久，试了很多方法，总算解决了。总结下自己试过的几种方法： **1. 使用torch.cuda.empty_cache() 在每一个训练epoch后都添加这一行代码，可以让训练从较低显存的地方开始，但并不适用爆显存的问题，随着epoch的增加，最大显存占用仍然会提示out of memory 。 2.使用torch.backends.cudnn.enabled = True 和 torch.backends.cudnn.benchmark = True 原理不太清楚，用法和1

[原创]关于解决pytorch训练神经网络时显存一直增长的问题

weixin_46724054的博客

08-06

3023

[原创]关于解决pytorch训练神经网络时显存一直增长的问题。

Pytorch在训练模型时，显存不断增大，导致CUDA out of memory。

weixin_40603846的博客

11-29

5269

Pytocch训练模型踩坑记：CUDA out of memory问题解决办法

解决网络训练验证过程中显存增加的原因

ChandelerGause的博客

11-13

5897

最近在训练网络时发现网络训练了几个epoch之后就会出现OOM 一开始以为是内存不够，后来才发现是在网络训练过程中，显存会不断的增加。针对以上的问题，查找资料总结了三种有用的方式训练过程过程中，保存参数加.item() 原代码： def train_one_epoch( model, criterion, train_dataloader, optimizer, epoch, clip_max_norm ): model.train() device = next(model

解决tensorflow训练时内存持续增加并占满的问题

09-18

如果在训练过程中不断地创建新的计算节点而不释放旧的，内存占用就会逐渐增加。在错误示例中，作者在遍历图片并进行正向传播时，每次都在会话中单独运行了`get_style_represent`函数，这个函数内部包含了额外的...

解决训练网络时候显存一直增加的问题（torch）

zyrant丶的博客

06-02

1761

1.方法1： torch.backends.cudnn.enabled = True torch.backends.cudnn.benchmark = True 原理：

pytorch训练过程中GPU显存一直增加问题

Escape the bug的博客

09-27

1397

我的解决方法：少用append() 笑死。。。哈哈

解决训练时显存不断增大问题

axept的博客

03-04

5579

解决训练时现存不断增大问题问题描述：在训练时显存不断增大，最终显存爆炸在上一篇提到，为了解决这个问题我无意间解决了另一个问题，但发现那个问题并不是根本原因，于是我又查阅了一些资料，经过一番尝试后找到了真正原因。首先网上有一些解决方法，例如：但是经过尝试，无论添加与否，显存还是在不断增加最终原因是由于我在训练时将一个中间结果不断地存进了一个列表里，并始终没有清空，最终导致了显存爆炸的问题最终注释掉这一行成功解决问题，在循环中尽量少用append方法，如果要保存中间结果，利用np.save等方法

深度学习笔记--解决GPU显存使用量不断增加的问题

牵一只蜗牛去散步

02-14

3842

出现上述问题的原因在于：输入数据到网络模型进行推理时，会默认构建计算图，便于后续反向传播进行梯度计算。而构建完整的计算图，会增加计算和累积内存消耗，从而导致 GPU显存使用量不断增加；基于 Pytorch 使用 VGG16 预训练模型进行分类预测时，出现 GPU 显存使用量不断增加，最终出现 cuda out of memory 的问题；由于博主只使用 VGG16 预训练模型进行分类预测，不需要训练和反向传播更新参数，所以不用构建完整的计算图。

解决pytorch训练时的显存占用递增的问题

weixin_45928096的博客

01-15

7156

在pytorch训练过程中突然out of memory。解决方法： 1. 设置 torch.no_grad(): 2. loss.item() 3. 在代码中添加以下两行： torch.backends.cudnn.enabled = True torch.backends.cudnn.benchmark = True 4. del操作后再加上torch.cuda.empty_cache() 补充：Pytorch显存不断增长问题的解决思路

Pytorch训练过程中，随着Epoch增加，显存增大

weixin_45655219的博客

03-11

536

在训练过程中，第一个epoch可用，而第二个epoch显存不够。1. 检查代码，是否将大量不必要的数据放到GPU。

【pytorch】随着epoch增加，显存逐渐增加？解决pytorch显存释放问题

weixin_43693967的博客

06-29

2016

解决pytorch训练时和测试时显存out of memory的问题。

pytorch 显存逐渐增大

a362682954的博客

11-05

1万+

在训练过程中,显存随着batch的增加而增大,特别是在预测的时候. 这时候可能是因为在训练过程中存储的数组是添加的而不是覆盖的.例如在预测过程中将所有结果逐渐添加保存到一个list中,导致list越来越大,占用的显存越来越多,从而导致oom或者卡死现象. 如果一定要使用添加数组,可以考虑使用np.save分布存储,再使用np.load读取,这样就不会添加进显存. 使用 torch.cuda...

训练过程中，内存占用一直升高的原因

羊藤枝的博客

12-21

4232

记录训练过程中遇到的一个问题，如下图所示，训练过程中内存占用一直不断升高。一会内存就涨为了下图所示：经常筛查，发现问题出现在下述代码中： for w, flag, op in zip(weights,flags,self._ops): if flag >= 2: result += w * op(x) self._resource_size[index] = op.size

yolo训练过程中显示cuda out of memory

04-05

有时，训练过程中可能会出现内存泄漏，导致显存使用量不断增加。可以尝试更新CUDA和cuDNN版本或升级PyTorch版本来解决这个问题。 4. 其他程序占用显存。在训练期间，其他程序可能会占用显存，导致显存不足。可以...