前言
在深度学习中,梯度下降是一个重要的概念。在之前的学习中虽然有所接触,但是并没有深入理解,现在看到梯度下降后感觉非常抽象,应当学习下梯度下降的相关知识。
一、梯度下降是什么?
1、定义和通俗理解
对于函数y = f(x),梯度下降法是一种寻求函数y的最小值的方法,通过这种方法,可以回答“当x为多少时,y可以达到最小值”。
我的理解是就像是在一个曲线上某个点的一条切线在不停的寻找最佳的位置,即把函数想象成一座座连绵起伏的雪山,直觉上速降的最佳路径就是沿着雪山最陡峭的方向下山。
2、数学意义
梯度下降的三要素:出发点、下降方向、下降步长。
机器学习中常用的权重更新表达式为:
这里的λ就是学习率,本文从这个式子出发来把机器学习中的各种“梯度”下降法阐释清楚。步长设为常数Δ,这时就会发现,如果用在梯度较大的时候,离最优解比较远,W的更新比较快;然而到了梯度较小的时候,也就是较靠近最优解的时候,W的更新竟然也保持着跟原来一样的速率,这样会导致W很容易更新过度反而远离了最优解,进而出现在最优解附近来回震荡。所以,既然在远离最优解的时候梯度大,在靠近最优解的时候梯度小,我们让步长随着这个律动,于是我我们就用