什么是?
寻找损失函数的极值,沿着负梯度方向是下降最快的方向。
为什么?
梯度是可计算的。但在超高维的时候,导数为0,求极值点的梯度可能非常难
我们沿着梯度方向,去寻找极值点。就是沿着负梯度方向去靠近极值点
怎么用梯度更新参数?
对于一维,x就是参数。高维,就会有Xi,用偏导数更新
随机梯度mini-batch梯度
梯度本应用所有样本更新,每个样本都有贡献。但是很多时候,样本很多,更新一次要很久
随机梯度下降,就是用样本中的一个例子来近似我所有的样本,来调整梯度
mini-batch梯度下降:
折中的方法,用一些小样本近似全部,比如每次用30个样本更新梯度。批量还是可以反映样本的分布情况。在深度学习中,这种方法用的最多,其收敛也不会很慢,收敛的局部最优也一般是可以接受的!