训练网络的时候增加了随着训练过程更新样本中心的操作,发现程序占的内存变得非常高,经过分析发现是因为torch的tensor还保留了梯度信息,所以我的程序训练过程中一直都没有抛弃掉这部分没用的梯度信息,导致内存占用变得非常高。
结论是要保留特征均值时一定要记得用tensor.detach(),只保留数值就可以了。
训练网络的时候增加了随着训练过程更新样本中心的操作,发现程序占的内存变得非常高,经过分析发现是因为torch的tensor还保留了梯度信息,所以我的程序训练过程中一直都没有抛弃掉这部分没用的梯度信息,导致内存占用变得非常高。
结论是要保留特征均值时一定要记得用tensor.detach(),只保留数值就可以了。