pytorch之trainer.zero_grad()

最新推荐文章于 2023-06-27 11:39:11 发布

FibonacciCode

最新推荐文章于 2023-06-27 11:39:11 发布

阅读量2.5k

点赞数 4

分类专栏：深度学习算法

本文链接：https://blog.csdn.net/yuebowhu/article/details/118099124

版权

深度学习算法专栏收录该内容

18 篇文章 2 订阅

订阅专栏

在下面的代码中，在每次l.backward()前都要trainer.zero_grad()，否则梯度会累加。

num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        l = loss(net(X), y)
        trainer.zero_grad()
        l.backward()
        trainer.step()
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l:f}')

trainer.step()在参数迭代的时候是如何知道batch_size的？
因为loss = nn.MSELoss()，均方误差是对样本总量平均过得到的，所以trainer.step()使用的是平均过的grad。
参考资料：

https://zh-v2.d2l.ai/chapter_linear-networks/linear-regression-concise.html

FibonacciCode

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
pytorch之trainer.zero_grad()

在下面的代码中，在每次l.backward()前都要trainer.zero_grad()，否则梯度会累加。num_epochs = 3for epoch in range(num_epochs): for X, y in data_iter: l = loss(net(X), y) trainer.zero_grad() l.backward() trainer.step() l = loss(net(features),
复制链接

扫一扫