以optim.SGD为例介绍pytorch优化器

最新推荐文章于 2024-01-19 15:30:00 发布

AAA.Rascal

最新推荐文章于 2024-01-19 15:30:00 发布

阅读量1k

点赞数 1

分类专栏： python强化学习文章标签： python

原文链接：https://blog.csdn.net/weixin_36670529/article/details/106145203

版权

python强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在神经网络优化器中，主要为了优化我们的神经网络，使神经网络在我们的训练过程中快起来，节省时间。在pytorch中提供了 torch.optim方法优化我们的神经网络，torch.optim 是实现各种优化算法的包。最常用的方法都已经支持，接口很常规，所以以后也可以很容易地集成更复杂的方法。

如何使用optimizer

要使用torch.optim，你必须构造一个optimizer对象，这个对象能保存当前的参数状态并且基于计算梯度进行更新。

构建一个优化器

要构造一个优化器，你必须给他一个包含参数（必须都是variable对象）进行优化，然后可以指定optimizer的参数选项，比如学习率，权重衰减。具体参考torch.optim文档。

optimizer = optim.SGD(model.parameters(),lr = 0.01, momentum = 0.9)
optimizer = optim.Adam([var1,var2],lr = 0.0001)

model.parameters()是获取model网络的参数，构建好神经网络后，网络的参数都保存在parameters()函数当中。
参数

首先sgd的参数有三个，1）opfunc；2）x；3）config；4）state

    config 第三个参数是一些配置变量，用来优化梯度下降用的，为了防止求得的最优解是局部最优解而不是全局最优解。
    配置变量包括：learningRate（梯度下降速率），learningRateDecay（梯度下降速率的衰减），weightDecay（权重衰减），momentum（动量 or 冲量）等等

learning rate

学习率较小时，收敛到极值的速度较慢。
学习率较大时，容易在搜索过程中发生震荡。

weight decay

为了有效限制模型中的自由参数数量以避免过度拟合，可以调整成本函数。
一个简单的方法是通过在权重上引入零均值高斯先验值，这相当于将代价函数改变为E〜（w）= E（w）+λ2w2。
在实践中，这会惩罚较大的权重，并有效地限制模型中的自由度。
正则化参数λ决定了如何将原始成本E与大权重惩罚进行折衷。

learning rate decay

decay越小，学习率衰减地越慢，当decay = 0时，学习率保持不变。
decay越大，学习率衰减地越快，当decay = 1时，学习率衰减最快。

momentum

“冲量”这个概念源自于物理中的力学，表示力对时间的积累效应。

在普通的情况下x的更新在加上冲量后就是在普通的情况下加上上次更新的x的与mom[0,1]的乘积

当本次梯度下降- dx * lr的方向与上次更新量v的方向相同时，上次的更新量能够对本次的搜索起到一个正向加速的作用。

当本次梯度下降- dx * lr的方向与上次更新量v的方向相反时，上次的更新量能够对本次的搜索起到一个减速的作用。

AAA.Rascal

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
以optim.SGD为例介绍pytorch优化器

在神经网络优化器中，主要为了优化我们的神经网络，使神经网络在我们的训练过程中快起来，节省时间。在pytorch中提供了 torch.optim方法优化我们的神经网络，torch.optim 是实现各种优化算法的包。最常用的方法都已经支持，接口很常规，所以以后也可以很容易地集成更复杂的方法。如何使用optimizer要使用torch.optim，你必须构造一个optimizer对象，这个对象能保存当前的参数状态并且基于计算梯度进行更新。构建一个优化器要构造一个优化器，你必须给他一个包含参数（必须都是v
复制链接

扫一扫

专栏目录