学习率
学习率(Learning Rate)作为网络中重要的一个超参数,其设置的好坏决定了目标函数能否收敛到局部最小值以及何时收敛到最小值。
在Deeplab中提出的Poly学习率策略。
# 创建学习率更新策略,这里是每个step更新一次学习率,以及使用warmup
def create_lr_scheduler(optimizer,
num_step: int,
epochs: int,
warmup=True,
warmup_epochs=1,
warmup_factor=1e-3):
assert num_step > 0 and epochs > 0
if warmup is False:
warmup_epochs = 0
def f(x):
"""
根据step数返回一个学习率倍率因子,
注意在训练开始之前,pytorch会提前调用一次lr_scheduler.step()方法
"""
if warmup is True and x <= (warmup_epochs * num_step):
alpha = float(x) / (warmup_epochs * num_step)
# warmup过程中lr倍率因子从warmup_factor -> 1
return warmup_factor * (1 - alpha) + alpha
else:
# 参考deeplab_v2: Learning rate policy
return (1 - (x - warmup_epochs * num_step) / ((epochs - warmup_epochs) * num_step)) ** 0.9
return torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=f)
学习率的计算:
由于网络在训练开始之前,pytorch会提前调用一次lr_scheduler.step()方法,因此从x=1开始计算,在预热阶段,学习率每次会根据warmup_factor * (1 - alpha) + alpha返回一个学习率倍率因子。调用lr_scheduler.py文件里的LambdaLR类,使用函数get_lr将倍率因子与初始学习率相乘,得到当前的学习率。
学习率通过上述计算方式,得到网络当前的学习率(保存小数点后6位):
x = 1, warmup_epochs=1, num_step=366, init_base=1e-4 warmup_factor=1e-3 :
alpha = float(x) / (warmup_epochs * num_step) = 1 / (1 * 366) = 0.0027
warmup_factor * (1 - alpha) + alpha = 0.0036973
0.0036973* init_base = 0.000000
x = 2:
alpha = float(x) / (warmup_epochs * num_step) = 2 / (1 * 366) = 0.01
warmup_factor * (1 - alpha) + alpha = 0.01099
0.01099 * init_base = 1e-6
.
.
.