脱离神经网络,只看反向传播都需要什么

先写几句废话:
神经网络中的反向传播是个很有用的东西。
脱离了神经网络一样有用。

其实反向传播就是一个更新数据的方法嘛!

但是在神经网络这种黑盒的背景下我们很难知道它都需要什么

那它都需要什么呢

看一个完全不依赖神经网络的简单参数更新

x = torch.tensor([10., 20.], requires_grad=True)
z = torch.tensor([30., 40.], requires_grad=True)
q = torch.tensor([80., 90.], requires_grad=True)
y = 100*x*z #就当是神经网络里一些复杂的计算吧
loss = x[0]*z[1]+x[1]*q[1]
print(loss)
# Compute gradients of the parameters respect to the loss
print(x.grad)     # None, 反向传播前,梯度不存在
loss.backward() #backward是开始求梯度     
print(x.grad)     
print(z.grad)
optim = torch.optim.SGD([x,z,q], lr=0.001) # 随机梯度下降, 学习率0.001
print(x)       
optim.step() #这句话的意思是更新参数,只有这个时候才会对参数进行更新
print(x)
print(z)

输出

tensor(2200., grad_fn=<AddBackward0>)
None
tensor([40., 90.])
tensor([ 0., 10.])
tensor([10., 20.], requires_grad=True)
tensor([ 9.9600, 19.9100], requires_grad=True)
tensor([30.0000, 39.9900], requires_grad=True)
tensor([80.0000, 89.9800], requires_grad=True)

可以看出最终这个结果,其实只与loss有关,也就是说只有loss里有的量才会根据梯度进行更新。因为计算梯度计算的就是Loss函数的梯度,与原来那神经网络是个啥函数没有关系。

不过要记住一点就是,在定义优化器的时候optim = torch.optim.SGD([x,z,q], lr=0.001) # 随机梯度下降, 学习率0.001一定要把要优化的参数加进去

这样的话只要loss里可以把一堆不相干的东西揉在一起,那更新的时候就是可以更新的!

就先别提我因为这个点卡了多少天了唉

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值