先写几句废话:
神经网络中的反向传播是个很有用的东西。
脱离了神经网络一样有用。
其实反向传播就是一个更新数据的方法嘛!
但是在神经网络这种黑盒的背景下我们很难知道它都需要什么
那它都需要什么呢
看一个完全不依赖神经网络的简单参数更新
x = torch.tensor([10., 20.], requires_grad=True)
z = torch.tensor([30., 40.], requires_grad=True)
q = torch.tensor([80., 90.], requires_grad=True)
y = 100*x*z #就当是神经网络里一些复杂的计算吧
loss = x[0]*z[1]+x[1]*q[1]
print(loss)
# Compute gradients of the parameters respect to the loss
print(x.grad) # None, 反向传播前,梯度不存在
loss.backward() #backward是开始求梯度
print(x.grad)
print(z.grad)
optim = torch.optim.SGD([x,z,q], lr=0.001) # 随机梯度下降, 学习率0.001
print(x)
optim.step() #这句话的意思是更新参数,只有这个时候才会对参数进行更新
print(x)
print(z)
输出
tensor(2200., grad_fn=<AddBackward0>)
None
tensor([40., 90.])
tensor([ 0., 10.])
tensor([10., 20.], requires_grad=True)
tensor([ 9.9600, 19.9100], requires_grad=True)
tensor([30.0000, 39.9900], requires_grad=True)
tensor([80.0000, 89.9800], requires_grad=True)
可以看出最终这个结果,其实只与loss有关,也就是说只有loss里有的量才会根据梯度进行更新。因为计算梯度计算的就是Loss函数的梯度,与原来那神经网络是个啥函数没有关系。
不过要记住一点就是,在定义优化器的时候optim = torch.optim.SGD([x,z,q], lr=0.001) # 随机梯度下降, 学习率0.001
一定要把要优化的参数加进去
这样的话只要loss里可以把一堆不相干的东西揉在一起,那更新的时候就是可以更新的!
就先别提我因为这个点卡了多少天了唉