- 博客(2)
- 收藏
- 关注
原创 SGD的step()方法
[docs] @torch.no_grad() def step(self, closure=None): """Performs a single optimization step. Args: closure (callable, optional): A closure that reevaluates the model and returns the loss. """ .
2021-09-03 16:43:33 843
原创 pytorch的state与param_group的区别与联系
之前看到很多文章对param_group进行解释,其实它就是一个长度为1的列表,含有的唯一一个元素是字典类型,其中包括网络模型参数和一些优化器超参数,并不包含状态。而state,Optimizer中的state是一个dafaultdict类型,其中的值默认是字典,一开始是空的,在其自己定义或者官方的优化器中,在step()函数中才将其重新写进去,一般它的键就是网络参数张量,值是一个字典,其中该字典的键是‘momentum_buffer’,值为相应的动量缓存。...
2021-09-03 15:51:12 571
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人