作用
反向传播的作用就是计算网络的参数 w ∗ , b ∗ w^{*} ,b^{*} w∗,b∗反向传播并不是和梯度下降不同的训练方法,他与梯度下降相同,但是在计算梯度向量的时候更加高效。
链式法则
对整个网络有,其损失函数为: L ( θ ) = ∑ n = 1 N l n ( θ ) L(\theta ) = \sum_{n=1}^{N}l^{n}(\theta ) L(θ)=∑n=1Nln(θ),他是所有训练数据的损失之和。
把训练数据里的任意一个样本点输入 x n x^{n} xn到神经网络中,它会输出一个 y n y^{n} yn,把这个输出 y n y^{n} yn和样本点本身的标签target y n ^ \hat{y^{n}} yn^作一个交叉熵,这个交叉熵定义了输出值,和标签之间的距离 l n ( θ ) l^{n}(\theta ) ln(θ),如果交叉熵比较大,说明输出和标签之间距离较远,这个网络的参数的损失比较大,参数不好。
对所有的训练集损失进行求和,得到toal loss.这就作为损失函数。对损失函数的参数做偏微分得到:
以上图中被红色框标记的神经元为例,假设有两个输入 x 1 x_{1} x1, x 2 x_{2} x