梯度:方向导数最大时的向量,也就是函数增长最快时的方向。
梯度下降就是根据梯度的反方向(函数减少最快的方向),一步一步去求函数的最小值点(坐标按着梯度反方向去移动,去求损失函数最小值点)
如何下降?数学告诉我们对于一个多变量的函数f(a,b,c,d,……)而言,我们可以求得一个向量,它称作该函数的梯度,要注意的是,梯度是一个方向向量,它表示这个函数在该点变化率最大的方向(这个定理不详细解释了,可以在高等数学教材上找到)于是Cost(w,b)的变化量ΔC就可以表示成
其中
是该点上的微小变化,我们可以随意指定这些微小变化,只需要保证ΔC<0就可以了,但是为了更快的下降,我们为何不选在梯度方向上做变化呢?
事实上,梯度下降的思想就是这样考虑的,我们使得从而保证C一直递减,而对于w来说只要每次更新即可。
参考自:反向传播详解
梯度相关参考:
梯度、方向导数、等值线法向量、曲面法向量之间的关系
多元微积分——多元函数的微分、方向导数与梯度
咸鱼的微积分笔记——梯度、法向量
下面转载知乎的二维和三维情况下梯度下降直观的例子
什么是梯度下降法