torch.optim 之如何使用优化器optimizer

最新推荐文章于 2024-02-06 16:36:07 发布

仙女修炼史

最新推荐文章于 2024-02-06 16:36:07 发布

阅读量2.4k

点赞数 1

分类专栏： pytorch 文章标签： python 深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_45209433/article/details/112347197

版权

pytorch 专栏收录该内容

23 篇文章 2 订阅

订阅专栏

这篇博客介绍了PyTorch的torch.optim模块，特别是SGD（随机梯度下降）优化器的使用。SGD用于更新模型参数，支持多种参数配置如学习率、动量等。param_groups参数允许为模型的不同部分设置不同的学习率和其他优化参数，适合微调或有多个子网络的模型。文中通过两个实例展示了如何创建SGD优化器，包括直接传递模型参数和按模块分组传递参数的方法。

摘要由CSDN通过智能技术生成

torch.optim模块包含了不同的优化器，支持大多数常用的优化算法，接口很通用。torch.optim创建一个优化器实体，保存当前model的状态，并且通过计算的梯度更新参数。创建时需要传给torch.optim一个包含model参数的迭代器，然后给该优化器指定learning rate、weight decaly等参数。（需要注意的：如果使用GPU，optimizers的创建需要model.cuda()之后）

1、SGD优化器函数原型

这里params可以是字典类型的，或是模型参数迭代器

函数原型
def __init__(self, params, lr=required, momentum=0, dampening=0,
                 weight_decay=0, nesterov=False)

２、param_groups的结构及作用

这里为什么要插入param_groups的结构及作用呢，是因为不同的初始化方式，param_groups的长度久不同。optimizer.param_groups是一个list结构，list中的元素是字典，字典的key是模块参数params，模块学习率lr，以及dampening、weight_decay、nesterov　6个元素，因此param_groups的结构是：

[
  {'params'     :  ,
  'lr'          :  ,
  'momentum'    :  , 
  'dampening'   :  , 
  'weight_decay':  , 
  'nesterov'    :  
  },
  
  {……}，
  
  {……}，
]

param_groups里保存的优化器在不同模块上的参数，帮助你为不同的子网络设定不同的学习率，finetune时常使用该策略。

３、SGD优化器使用例子

#方法一、传递模型参数迭代器 
#lr=0.01, momentum=0.9 是默认参数　                       
torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9, weight_decay=1e-4)
len(optim.param_groups) = 1
[
  {'params'     :  ,
  'lr'          :  0.01,
  'momentum'    :  0.9, 
  'dampening'   :  0, 
  'weight_decay':  0.0001, 
  'nesterov'    :  False
  }
]



#方法二、传递一个字典
#lr=1e-2, momentum=0.9 是默认参数
# model.classifier模块的学习率指定学习率，'lr': 1e-3
# model.base模块的学习率是默认学习率，即lr=1e-2
optim.SGD([{'params': model.base.parameters()},
　　　　　 {'params': model.classifier.parameters(), 'lr': 1e-3, 
　　　　　 "momentum" :0.9, "weight_decay" :1e-4}], 
　　　　　 lr=1e-2, momentum=0.9)

len(optim.param_groups) = 2

[
  {'params'     :  ,
  'lr'          :  1e-05,
  'momentum'    :  0, 
  'dampening'   :  0, 
  'weight_decay':  0, 
  'nesterov'    :  False
  },
  
  {'params'     :  ,
  'lr'          :  0.01,
  'momentum'    :  0.9, 
  'dampening'   :  0, 
  'weight_decay':  0.0001, 
  'nesterov'    False:  
  },
  
]