学习率调参问题

本文探讨了学习率调参的重要性,介绍了学习率衰减和对数均匀取值两种方法。学习率衰减包括指数衰减和倒数衰减等,用于初期快速迭代后期避免过拟合。学习率对数均匀取值则解决了均匀取值在某些范围内的不均匀问题。这两种方法结合使用,可帮助模型找到更好的学习率并实现有效收敛。
摘要由CSDN通过智能技术生成

学习率调参一直是我们调参中非常重要的一个点,如果设置的太大,会导致网络跳过最优值,如果设置的太小,会导致学习的收敛速度太慢。

本文主要讲两种学习率的调参方法:学习率衰减和学习率对数均匀取值。

1. 学习率衰减

学习率衰减问题主要是让学习率前期以一个较大的学习率来训练,使得模型快速迭代,训练收敛,而后期为了使得模型不跳过最优点,我们就需要将学习率以一个较小的值来迭代,所以主要就是将学习率设置为从大到小来逐步训练。需要注意的是,这里学习率的调整不是一个iteration调整一次,而是一个epoch结束之后调整一次。

主要有以下几种调整方法(设置 t 为第 t 次epoch):

(1)第一种是设置一个和 t 成反比形式的学习率函数:


decay_rate 在上面的公式中也是需要我们调试的一个超参数,例如可以设置初始值为1.

(2) 设置一个学习率的指数衰减

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值