学习率的调节策略
- 等间隔调整学习率 StepLR
- 按需调整学习率 MultiStepLR
- 指数衰减调整学习率 ExponentialLR
- 弦退火调整学习率 CosineAnnealingLR
- 自适应调整学习率 ReduceLROnPlateau
- 自定义调整学习率 LambdaLR
Warmup 使用
然而在顶会论文和知名比赛中,作者一般都不会直接使用上述学习率调整策略,而是先预热模型(warm up), warm up是深度学习炼丹时常用的一种手段,由于一开始参数不稳定,梯度较大,如果此时学习率设置过大可能导致数值不稳定。使用warm up有助于减缓模型在初始阶段对mini-batch的提前过拟合现象,保持分布的平稳,其次也有助于保持模型深层的稳定性。
pytorch代码
#!/usr/bin/python3
# coding = utf-8
import matplotlib.pyplot as plt
import math
import torch
from torchvision.models import resnet18
from math import cos, pi
def adjust_learning_rate(optimizer, warmup_epoch,current_epoch, max_epoch, lr_min=0, lr_max=0.1, warmup=True):
if current_epoch < warmup_epoch:
lr = lr_max * current_epoch / warmup_epoch
else:
lr = lr_min + (lr_max - lr_min) * (
1 + cos(pi * (current_epoch - warmup_epoch) / (max_epoch - warmup_epoch))) / 2
for param_group in optimizer.param_groups:
param_group['lr'] = lr
model = resnet18(pretrained=False)
optimizer = torch.optim.SGD(model.parameters(), lr=0.1,momentum=0.9, weight_decay=5e-4)
lr_max = 0.01
lr_min = 0.00001
max_epoch = 2000
lrs = []
warmup_epoch=20
for epoch in range(max_epoch):
adjust_learning_rate(optimizer=optimizer,warmup_epoch=warmup_epoch, current_epoch=epoch, max_epoch=max_epoch, lr_min=lr_min, lr_max=lr_max,
warmup=True)
print(optimizer.param_groups[0]['lr'])
lrs.append(optimizer.param_groups[0]['lr'])
optimizer.step()
plt.plot(lrs)
plt.show()
学习率变化曲线图