yangzhen24-CSDN博客

原创 SGD的step()方法

[docs] @torch.no_grad() def step(self, closure=None): """Performs a single optimization step. Args: closure (callable, optional): A closure that reevaluates the model and returns the loss. """ .

2021-09-03 16:43:33 843

原创 pytorch的state与param_group的区别与联系

之前看到很多文章对param_group进行解释，其实它就是一个长度为1的列表，含有的唯一一个元素是字典类型，其中包括网络模型参数和一些优化器超参数，并不包含状态。而state，Optimizer中的state是一个dafaultdict类型，其中的值默认是字典，一开始是空的，在其自己定义或者官方的优化器中，在step()函数中才将其重新写进去，一般它的键就是网络参数张量，值是一个字典，其中该字典的键是‘momentum_buffer’，值为相应的动量缓存。...

2021-09-03 15:51:12 571

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人