model.train()和model.eval()，以及model.eval()和torch.no_grad（）区别

最新推荐文章于 2024-06-11 09:34:15 发布

飞天小女侠~

最新推荐文章于 2024-06-11 09:34:15 发布

阅读量380

点赞数 1

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuan971130/article/details/115081301

版权

python 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

参考博文
1.模型实例化以后：
训练时要用torch.train（），测试时要用torch.eval()

2.model.train()
启用Batch Normalization和Dropout。
model.train()可以保证BN层能够用到每一批数据的均值和方差。对于Dropout,model.train()可以随机选取一部分网络连接来更新参数。

mode.eval()
不启用Batch Normalization 和Dropout
测试时添加model.eval()，保证BN层能用到全部数据的均值和方差，即测试过程中要保证BN层的均值和方差不变，同时，训练时，利用到了所有网络连接，即不舍弃神经元，所以没有用到Dropout。

在进行测试时，model（test）之前，需要加上model.eval()。否则的话，有输入数据，集是不训练，也会改变权值。

补充：model.eval()和torch.no_grad()的区别
在PyTorch中进行validation/test时，会使用model.eval()切换到测试模式，在该模式下：

1.主要用于通知dropout层和BN层在train和validation/test模式间切换：

（1）在train模式下，dropout网络层会按照设定的参数p设置保留激活单元的概率（保留概率=p); BN层会继续计算数据的mean和var等参数并更新。

（2）在eval模式下，dropout层会让所有的激活单元都通过，而BN层会停止计算和更新mean和var，直接使用在训练阶段已经学出的mean和var值。

2.该模式不会影响各层的gradient计算行为，即gradient计算和存储与training模式一样，只是不进行反向传播（back probagation)。

而with torch.no_grad()则主要是用于停止autograd模块的工作，以起到加速和节省显存的作用。它的作用是将该with语句包裹起来的部分停止梯度的更新，从而节省了GPU算力和显存，但是并不会影响dropout和BN层的行为。

如果不在意显存大小和计算时间的话，仅仅使用model.eval()已足够得到正确的validation/test的结果；而with torch.no_grad()则是更进一步加速和节省gpu空间（因为不用计算和存储梯度），从而可以更快计算，也可以跑更大的batch来测试。

飞天小女侠~

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。