一、梯度下降算法(Gradient Descent)
梯度下降法通常也称为最速下降法,是一种用于最小化损失函数的优化算法。思想是通过函数当前点对应梯度(或者是近似梯度)的反方向,使用规定步长距离进行迭代搜索,希望找到一组参数(θ)使得损失函数最小化。但是当存在非常多的参数时,梯度计算非常困难,可以使用反向传播算法来解决这个问题,因此,反向传播算法其实就是梯度下降法过程中用来有效率地计算梯度的方法。
二、反向传播算法(Back Propagation)
摘自刘二大人深度学习
摘自李宏毅老师机器学习
Forward pass
前馈过程就是在每一步计算中,计算出z相对于w的梯度,用于后续计算。
Backward pass
反馈过程就是计算对于所有激活函数输入z的梯度,过程中要使用的链式法则。
Summary
前馈过程得到的每一步对于参数的梯度和反馈过程得到的对于所有激活函数输入z的梯度相乘即可得到损失对于参数的梯度,可以高效计算梯度,应用于梯度下降算法的参数梯度计算中。