基于pytorch的优化（torch.optim）

最新推荐文章于 2024-10-05 20:00:00 发布

炸弹天堂

最新推荐文章于 2024-10-05 20:00:00 发布

阅读量135

点赞数 1

分类专栏： pytorch 文章标签： pytorch python 人工智能深度学习

本文链接：https://blog.csdn.net/weixin_45932783/article/details/129030253

版权

pytorch 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、直接调用optim内置优化(Adam()和SGD())

optimizer = torch.optim.SGD(model.parameters(), lr = 0.001,betas=(0.9, 0.999), eps=1e-08, weight_decay=0)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

Adam()参数	描述
parameters()	待优化参数的iterable
lr=	学习率（默认：1e-3）
betas (Tuple[float, float])	用于计算梯度以及梯度平方的运行平均值的系数
weight_decay (float）	权重衰减（L2惩罚）
eps (float）	增加数值计算的稳定性

SGD()参数	描述
parameters()	待优化参数的iterable
lr=	学习率（默认：1e-3）
momentum	冲量
weight_decay (float）	权重衰减（L2惩罚）

2、为每层单独设置参数

	import torch.nn as nn
import torch
class NetWord(nn.Module):
    def __init__(self):
        super(NetWord,self).__init__()
        self.main_1 = nn.Sequential(
            nn.Linear(28 * 28,512),
            nn.LeakyReLU(),  #如果x>0输出0，如果x小于0 输出a*x a表示很小的斜率 比如0.1

        )
        self.main_2 = nn.Sequential(
            nn.Linear(512, 256),
            nn.LeakyReLU(),
            nn.Linear(256, 1),
            nn.Sigmoid()
        )
    def forward(self,x):
        x = x.view(-1,28*28)
        x = self.main_1(x)
        x = self.main_2(x)
        return x
#模型初始化
model = NetWord()
#优化
optimizer = torch.optim.SGD([
                {'params': model.main_1.parameters()},
                {'params': model.main_2.parameters(), 'lr': 1e-3}
            ], lr=1e-2, momentum=0.9)

print(optimizer)
# input = torch.randn((28,28))
# output = model(input)
# loss = nn.L1Loss() #定义损失函数
# loss_1 = loss(output, output*0.9) #传入损失函数  output*0.9是真实数据
#optimizer.zero_grad() # 梯度清零
# loss_1.backward()
# optimizer.step()
# print(loss_1.item())

输出：

Parameter Group 0
dampening: 0
differentiable: False
foreach: None
lr: 0.01
maximize: False
momentum: 0.9
nesterov: False
weight_decay: 0

Parameter Group 1
dampening: 0
differentiable: False
foreach: None
lr: 0.001
maximize: False
momentum: 0.9
nesterov: False
weight_decay: 0
)

3、学习率衰减

StepLR、ExponentialLR、MultiStepLR和ReduceLROnPlateau

import torch
scheduler =  torch.optim.lr_scheduler.StepLR(optimizer, gamma=0.9) #StepLR 阶梯式衰减
scheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer,milestones=[20,80],gamma = 0.9) #多阶梯式衰减
scheduler =  torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma=0.9 ) #指数连续衰减
torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0.0001, eps=1e-08)
scheduler.step()

ReduceLROnPlateau参数	触发条件
mode	'min’模式检测metric是否不再减小，'max’模式检测metric是否不再增大
factor	触发条件后lr*=factor
patience	不再减小（或增大）的累计次数
verbose	触发条件后输出
threshold	只关注超过阈值的显著变化
threshold_mode	‘rel’参数：max模式下如果超过best(1+threshold)为显著，min模式下如果低于best(1-threshold)为显著；‘abs’参数：max模式下如果超过best+threshold为显著，min模式下如果低于best-threshold为显著
cooldown	触发条件后，等待一定的epoch，减缓lr下降速度
min_lr	最小的允许lr
eps	如果新旧lr之间的差异小于1e-08，则忽略此次更新