一、梯度下降法基础知识
梯度:函数中的自变量沿着梯度方向运动函数增长最快。梯度的方向即函数值变化最快的方向,就是某点在等值面上的切线的垂直方向。
二、梯度的计算
平方损失函数的缺点:
(1)损失函数过于平缓,使用梯度下降法需要很长时间才能求出最小值
(2)使用梯度下降法时容易陷入局部最小解
三、梯度下降法分析
思路:当损失函数过于复杂而无法求出最小值时采用梯度下降法求最小值—找到梯度的反方向,即函数下降最快的方向,沿着此方向一直找到最低或较低端,找到使损失函数最小的w值。
步长:梯度下降法中某点沿着梯度反方向的步长为learning rate * L(w0) * -1,即损失函数上某点梯度的反方向乘以learning rate。
learning rate设置:
(1)在求解最小值中,learning rate是初始设置好之后不会发生变化的,而梯度是一直在发生变化的,越来越小直到达到某一个点。
(2)learning rate由于是自己设置的,可能会过大或过小,如果过大可能一次就跨过了最低点,如果过小则会花费很长时间到达最低点。所以要不停的尝试,试出较好的值。
梯度下降的停止:(1)设置固定的步数(2)设置损失差的范围
四、梯度下降法的过程
五、梯度下降法落脚点分析
对于凸函数,梯度下降停止的点就是最低点,而如果函数不是绝对的凸函数,梯度下降停止的点就可能是极小点,也就是局部最小点。