脱离神经网络，只看反向传播都需要什么

最新推荐文章于 2024-10-01 20:17:55 发布

安之若醇

最新推荐文章于 2024-10-01 20:17:55 发布

阅读量95

点赞数

分类专栏：实验室的xml 文章标签：神经网络深度学习 python

本文链接：https://blog.csdn.net/weixin_49599247/article/details/129196592

版权

实验室的xml 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

先写几句废话：
神经网络中的反向传播是个很有用的东西。
脱离了神经网络一样有用。

其实反向传播就是一个更新数据的方法嘛！

但是在神经网络这种黑盒的背景下我们很难知道它都需要什么

那它都需要什么呢

看一个完全不依赖神经网络的简单参数更新

x = torch.tensor([10., 20.], requires_grad=True)
z = torch.tensor([30., 40.], requires_grad=True)
q = torch.tensor([80., 90.], requires_grad=True)
y = 100*x*z #就当是神经网络里一些复杂的计算吧
loss = x[0]*z[1]+x[1]*q[1]
print(loss)
# Compute gradients of the parameters respect to the loss
print(x.grad)     # None, 反向传播前，梯度不存在
loss.backward() #backward是开始求梯度     
print(x.grad)     
print(z.grad)
optim = torch.optim.SGD([x,z,q], lr=0.001) # 随机梯度下降， 学习率0.001
print(x)       
optim.step() #这句话的意思是更新参数,只有这个时候才会对参数进行更新
print(x)
print(z)

输出

tensor(2200., grad_fn=<AddBackward0>)
None
tensor([40., 90.])
tensor([ 0., 10.])
tensor([10., 20.], requires_grad=True)
tensor([ 9.9600, 19.9100], requires_grad=True)
tensor([30.0000, 39.9900], requires_grad=True)
tensor([80.0000, 89.9800], requires_grad=True)

可以看出最终这个结果，其实只与loss有关，也就是说只有loss里有的量才会根据梯度进行更新。因为计算梯度计算的就是Loss函数的梯度，与原来那神经网络是个啥函数没有关系。

不过要记住一点就是，在定义优化器的时候optim = torch.optim.SGD([x,z,q], lr=0.001) # 随机梯度下降，学习率0.001一定要把要优化的参数加进去

这样的话只要loss里可以把一堆不相干的东西揉在一起，那更新的时候就是可以更新的！

~~就先别提我因为这个点卡了多少天了唉~~