pytorch中GPU内存耗尽

最新推荐文章于 2023-08-21 17:28:36 发布

我是天才很好

最新推荐文章于 2023-08-21 17:28:36 发布

阅读量3.9k

点赞数 2

分类专栏： pytorch

原文链接：https://blog.csdn.net/bob_chen_csdn/article/details/83514136

版权

pytorch 专栏收录该内容

65 篇文章 16 订阅

订阅专栏

Pytorch GPU运算过程中会出现：“cuda runtime error(2): out of memory”这样的错误。通常，这种错误是由于在循环中使用全局变量当做累加器，且累加梯度信息的缘故， 用官方的说法就是："accumulate history across your training loop"。在默认情况下，开启梯度计算的Tensor变量是会在GPU保持他的历史数据的，所以在编程或者调试过程中应该尽力避免在循环中累加梯度信息。

下面举个栗子：

上代码：

total_loss=0
for i in range(10000):
    optimizer.zero_grad()
    output=model(input)
    loss=criterion(output)
    loss.backward()
    optimizer.step()
    total_loss+=loss
    #这里total_loss是跨越循环的变量，起着累加的作用，
    #loss变量是带有梯度的tensor，会保持历史梯度信息，在循环过程中会不断积累梯度信息到tota_loss，占用内存
12345678910

以上例子的修正方法是在循环中的最后一句修改为：total_loss += float(loss)，利用类型变换解除梯度信息，这样，多次累加不会累加梯度信息。

局部变量逗留导致内存泄露

局部变量通常在变量作用域之外会被Python自动销毁，在作用域之内，不需要的临时变量可以使del x来销毁。

在设计Linear Layers 的时候，尽量让其规模小点

对nn.Linear(m,n)这样规模的线性函数，他的空间规模为O(mn),除此规模的空间来容纳参数意外，还需要同样规模的空间来存储梯度，由此很容易造成GPU空间溢出。

相关的进程管理bash cmd

nvidia-smi 监控GPU
watch -n 1 nvidia-smi实时监控GPU
watch -n 1 lscpu 实时监控CPU
ps -elf 进程查看
ps -elf | grep python 查看Python子进程
kill -9 [PID] 杀死进程PID

Referance:

Pytorch documentations

我是天才很好

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
pytorch中GPU内存耗尽

Pytorch GPU运算过程中会出现：“cuda runtime error(2): out of memory”这样的错误。通常，这种错误是由于在循环中使用全局变量当做累加器，且累加梯度信息的缘故，用官方的说法就是："accumulate history across your training loop"。在默认情况下，开启梯度计算的Tensor变量是会在GPU保持他的历史数据的，所以在编程或者调试过程中应该尽力避免在循环中累加梯度信息。下面举个栗子：上代码：total_loss=0for
复制链接

扫一扫