【王木头学科学】对梯度下降法和反向传播的理解

最新推荐文章于 2024-09-05 15:28:05 发布

小葵同学00

最新推荐文章于 2024-09-05 15:28:05 发布

阅读量131

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_45757219/article/details/131664661

版权

缩短两个模型（真是模型和神经网络训练的模型）之间的差距，用反向传播调整神经网络里面的参数，梯度下降就是反向传播的一种方法，还有牛顿法、冲量法等。
正向传播是通过w和b最后计算得到了一个判断结果，最后的结果有一定偏差，调整对最后判断结果有重大影响的参数。
反向传播传播的是偏差的信息，把偏差传递到各个参数上，根据参数对偏差的贡献的大小。
梯度指向的方向是数值增加最快的方向，反方向是数值减小最快的方向，和等高线垂直。

在这里插入图片描述

偏导是曲线上的切线，两条直线相交能唯一确定一个平面，这个平面刚好是曲线的一个切面。
两个特征确定一个平面，一个特征行不行？

从Z轴旋转向下俯视，把两个特征换成一个特征，两个向量的和即梯度。
梯度是一个向量，向量的分量是偏导。
在这里插入图片描述
向量的点积某种程度上是这个向量在另外一个向量上的投影。

df：梯度上的变化量，变化速度最快的那个变化量

这里a的偏差数值由上一层所有感知机确定，所有要加起来求平均。
在下一轮是输入层，a是常量没必要修改了，只用更新w和b。

以上是基本思路，可能不太严谨，只帮助理解。

在这里插入图片描述
这个式子代表的是这一个感知机的输出表达式，l代表第几层，下标i代表第l层第i个感知机。这里一个感知机的输入是整个上一层所有感知机的输出。接下来代表一整层感知机的表达式，没下标代表一整层。

在这里插入图片描述
w有两个下标，第一个下标代表的是第几层的第一个感知机，第二个下标代表的是这个系数的第几个分量。

在这里插入图片描述
方括号是神经网络第几层，圆括号是第几张照片

al是激活函数的输出，损失函数对它进行求导，al和zl相关，zl又和w,b相关，采用链式法则求导。

修改w和b。

新定义ji这一层的损失函数。

开始下一轮迭代。

在这里插入图片描述

这里的损失函数依赖于上一层的所有输出，所以要求平均。

小葵同学00

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【王木头学科学】对梯度下降法和反向传播的理解

这个式子代表的是这一个感知机的输出表达式，l代表第几层，下标i代表第l层第i个感知机。缩短两个模型（真是模型和神经网络训练的模型）之间的差距，用反向传播调整神经网络里面的参数，梯度下降就是反向传播的一种方法，还有牛顿法、冲量法等。w有两个下标，第一个下标代表的是第几层的第一个感知机，第二个下标代表的是这个系数的第几个分量。反向传播传播的是偏差的信息，把偏差传递到各个参数上，根据参数对偏差的贡献的大小。梯度指向的方向是数值增加最快的方向，反方向是数值减小最快的方向，和等高线垂直。新定义ji这一层的损失函数。
复制链接

扫一扫