缩短两个模型(真是模型和神经网络训练的模型)之间的差距,用反向传播调整神经网络里面的参数,梯度下降就是反向传播的一种方法,还有牛顿法、冲量法等。
正向传播是通过w和b最后计算得到了一个判断结果,最后的结果有一定偏差,调整对最后判断结果有重大影响的参数。
反向传播传播的是偏差的信息,把偏差传递到各个参数上,根据参数对偏差的贡献的大小。
梯度指向的方向是数值增加最快的方向,反方向是数值减小最快的方向,和等高线垂直。
偏导是曲线上的切线,两条直线相交能唯一确定一个平面,这个平面刚好是曲线的一个切面。
两个特征确定一个平面,一个特征行不行?
从Z轴旋转向下俯视,把两个特征换成一个特征,两个向量的和即梯度。
梯度是一个向量,向量的分量是偏导。
向量的点积某种程度上是这个向量在另外一个向量上的投影。
df:梯度上的变化量,变化速度最快的那个变化量
这里a的偏差数值由上一层所有感知机确定,所有要加起来求平均。
在下一轮是输入层,a是常量没必要修改了,只用更新w和b。
以上是基本思路,可能不太严谨,只帮助理解。
这个式子代表的是这一个感知机的输出表达式,l代表第几层,下标i代表第l层第i个感知机。这里一个感知机的输入是整个上一层所有感知机的输出。接下来代表一整层感知机的表达式,没下标代表一整层。
w有两个下标,第一个下标代表的是第几层的第一个感知机,第二个下标代表的是这个系数的第几个分量。
方括号是神经网络第几层,圆括号是第几张照片
al是激活函数的输出,损失函数对它进行求导,al和zl相关,zl又和w,b相关,采用链式法则求导。
修改w和b。
新定义ji这一层的损失函数。
开始下一轮迭代。
这里的损失函数依赖于上一层的所有输出,所以要求平均。