pytorch梯度更新原理以及不同实现方式

本文总结了pytorch梯度更新的不同实现方式,从数学基础推导到 使用optimizer优化器进行更新.

  • 使用数学计算进行参数更新.
import torch
from torch.autograd import Variable

N,D_in,H,D_out=64,1000,100,10
x=Variable(torch.randn(N,D_in),requires_grad=False)
y=Variable(torch.randn(N,D_out),requires_grad=False)
w1=Variable(torch.randn(D_in,H),requires_grad=True)
w2=Variable(torch.randn(H,D_out),requires_grad=True)

learning_rate=1e-6
for t in range(500):
    y_pred=x.mm(w1).clamp(min=0).mm(w2)
    loss=(y_pred-y).pow(2).sum()

    if w1.grad is not None: w1.grad.data.zero_()
    if w2.grad is not None: w2.grad.data.zero_()
    loss.backward()

    w1.data-=learning_rate*w1.grad.data
    w2.data-=learning_rate*w2.grad.data
    print('loss:',loss)
  • 使用torch内部的Sequntial()方法和grad方法进行更新
import torch
from torch.autograd import Variable

N,D_in,H,D_out=64,1000,100,10
x=Variable(torch.randn(N,D_in),requires_grad=False)
y=Variable(torch.randn(N,D_out),requires_grad=False)
w1=Variable(torch.randn(D_in,H),requires_grad=True)
w2=Variable(torch.randn(H,D_out),requires_grad=True)

learning_rate=1e-6
for t in range(10):
    y_pred=x.mm(w1).clamp(min=0).mm(w2)
    loss=(y_pred-y).pow(2).sum()

    if w1.grad is not None: w1.grad.data.zero_()
    if w2.grad is not None: w2.grad.data.zero_()
    loss.backward()

    w1.data-=learning_rate*w1.grad.data
    w2.data-=learning_rate*w2.grad.data
    print('w1:',w1,'\nw2:',w2)
  • 根据模型的构建获取参数,进而更新参数
import torch
from torch.autograd import Variable

N,D_in,H,D_out=64,100,100,10
x=Variable(torch.randn(N,D_in))
y=Variable(torch.randn(N,D_out),requires_grad=False)

model=torch.nn.Sequential(torch.nn.Linear(D_in,H),
                          torch.nn.ReLU(),
                          torch.nn.Linear(H,D_out))
loss_fn=torch.nn.MSELoss(size_average=False)

learning_rate=1e-4
for t in range(500):
    y_pred=model(x)
    loss=loss_fn(y_pred,y)
    model.zero_grad()
    loss.backward()
    for param in model.parameters():
        param.data-=learning_rate*param.grad.data
    print('loss:',loss)
  • 根据自己编写的模型和优化器进行梯度更新
import torch
from torch.autograd import Variable

class TwoLayerNet(torch.nn.Module):
    def __init__(self,D_in,H,D_out):
        super(TwoLayerNet,self).__init__()
        self.linear1=torch.nn.Linear(D_in,H)
        self.linear2=torch.nn.Linear(H,D_out)

    def forward(self,x):
        h_relu=self.linear1(x)
        y_pred=self.linear2(h_relu)
        return y_pred

N,D_in,H,D_out=64,1000,100,10
x=Variable(torch.randn(N,D_in))
y=Variable(torch.randn(N,D_out),requires_grad=False)

model=TwoLayerNet(D_in,H,D_out)

criterion=torch.nn.MSELoss(size_average=False)
optimizer=torch.optim.SGD(model.parameters(),lr=1e-4)
for t in range(500):
    y_pred=model(x)
    loss=criterion(y_pred,y)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    print(loss.detach().numpy())

本文有助于读者对梯度更新原理的理解以及pytorch模型的构建.更多的详细信息可以参考斯坦福公开课.

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch中的梯度累积是指在训练过程中,将多个小批量数据的梯度进行累加,而不是每次反向传播后自动清零梯度。这个特性可以通过调用`loss.backward()`来实现,但在梯度累积时需要手动将梯度清零。 梯度累积的好处在于可以在内存有限的情况下使用更大的批量大小,从而提高模型的训练效果。另外,梯度累积还能够支持多任务训练,因为在多任务中共享的张量的梯度会自动累加。 具体实现梯度累积的代码示例如下: ``` optimizer.zero_grad() # 将梯度清零 for i, data in enumerate(train_loader): inputs, labels = data # 前向传播 outputs = model(inputs) loss = criterion(outputs, labels) # 反向传播 loss.backward() if (i+1) % accum_steps == 0: # 每经过 accum_steps 个小批量数据进行一次梯度更新 optimizer.step() # 更新参数 optimizer.zero_grad() # 将梯度清零 ``` 在这个示例中,我们在每经过 `accum_steps` 个小批量数据时进行一次参数更新,并在更新之后将梯度清零。这样就实现梯度累积的效果。需要注意的是,`accum_steps`需要根据具体的情况进行调整,以平衡内存占用和训练效果。 参考资料: PyTorch默认会对梯度进行累加。即,PyTorch会在每一次backward()后进行梯度计算,但是梯度不会自动归零,如果不进行手动归零的话,梯度会不断累加。 梯度累积时,每个batch仍然正常前向传播以及反向传播,但是反向传播之后并不进行梯度清零,因为PyTorch中的backward()执行的是梯度累加的操作,所以当我们调用N次loss.backward()后,这N个batch的梯度都会累加起来。 在PyTorch的设计原理上,利用梯度累加可以在最多保存一张计算图的情况下进行多任务的训练。另外一个理由是在内存不足的情况下,可以叠加多个batch的梯度作为一个大batch进行迭代。由于PyTorch的动态图和autograd机制,设置梯度为0比较复杂。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值