17.动量与学习率的衰减

最新推荐文章于 2024-05-05 22:22:59 发布

派大星的最爱海绵宝宝

最新推荐文章于 2024-05-05 22:22:59 发布

阅读量187

点赞数 1

分类专栏： pytorch 文章标签：学习 python 深度学习

本文链接：https://blog.csdn.net/weixin_44846755/article/details/125937362

版权

pytorch 专栏收录该内容

30 篇文章 1 订阅

订阅专栏

动量

可以理解为惯性，
在这里插入图片描述

减去一个梯度意味着往梯度的方向走，此时减去一个zk，意味着往zk的方向走
zk是某个叠加的算子，代表上一次梯度的方向▽w(k-1)，

adam本身就是利用动量做的优化，不需要额外管理这个变量。

optimizer=torch.optim.SGD(model.parameters(),args.lr,
                          momentum=args.momentum,
                          weight_decay=args.weight_decay)

scheduler=ReduceLROnPlateau(optimizer,'min')

for epoch in xrange(args.start_epoch,args.epochs):
    train(train_loader,model,criteon,optimizer,epoch)    		      	 
    result_avg,loss_val=
    validate(val_loader,model,criteon,epoch)
    scheduler.step(loss_val)

learning rate tunning学习率的衰减

我们会迫使学习率慢慢降为0

方案1：

scheduler=ReduceLROnPlateau(optimizer,'min')

loss下降后平缓，一条直线不再减少，就要减少lr。参数patience，patience次后，监听loss，发现loss没有减少，就会减少lr，每次lr成员减少因子（例如0.5或0.08）.

scheduler.step(loss_val)

每调用一次就会监听一次loss，判断loss是否长时间不再减少，如果是，则按照规则减少lr，如果不是则什么也不做，只起记录的作用。

方案2：

规定每x个epoch，就会衰减一点lr。

scheduler=StepLR(optimizer，step_size=30,gamma=0.1)

每30个epoch，lr=lr*gamma
通常设置为1k

派大星的最爱海绵宝宝

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
17.动量与学习率的衰减

龙良曲PyTorch学习框架：动量与学习率的衰减
复制链接

扫一扫

专栏目录

17.动量与学习率的衰减

目录

动量

learning rate tunning学习率的衰减

方案1：

方案2：

“相关推荐”对你有帮助么？