三种梯度下降法
1、梯度下降法
以线性回归为例:
梯度下降:
当m很大时,所需要的时间将会很长,该梯度下降法也称为批量梯度下降法(batch gradient descent).“批量”就是表示我们需要每次都考虑所有的训练样本。
2、随机梯度下降(Stochastic gradient descent)
单个训练样本的代价函数:
总体的代价函数:
SGD过程:
step1:将数据随机打乱
step2:
随机梯度下降的做法实际上就是扫描所有的训练样本,首先是第一组训练样本(x(1), y(1)),
然后只对这第一个训练样本,我们的梯度下降只对这第一个训练样本的代价函数进行。换就话说我们要关注第一个样本,然后把参数稍微修改一点使其对第一个训练样本的拟合变得好一点完成这个内层循环(for i=1,….,m)以后,然后再转向第二个训练样本,把参数稍微修改一点使其对第二个训练样本的拟合变得好一点,然后再转向第三个训练样本以此类推直到完成所有的训练集。
与批量梯度下降不同,随机梯度下降不需要对所有m个训练样本求和来得到梯度项,只需要对单个训练样本求出这个梯度项,我们已经在这个过程中开始优化参数了。
外环(Repeat)的循环次数取决于训练样本的大小,通常1次最多10次
随机梯度下降算法在每一次计算之后便更新参数 θ, 而不需要首先将所有的训练集求和,在梯度下降算法还没有完成一次迭代时, 随机梯度下降算法便已经走出了很远。 但是这样的算法存在的问题是, 不是每一步都是朝着”正确”的方向迈出的。 因此算法虽然会逐渐走向全局最小值的位置,但是可能无法站到那个最小值的那一点,而是在最小值点附近徘徊。
3、mini-batch梯度下降
批量梯度下降:use all examples in each iteration.
随机梯度下降:use 1 example in each iteration
mini-batch梯度下降:use b examples in each iteration
b=mini-batch size 通常令b在2-100
例如 b = 10 m=1000
参考资料
1、吴恩达机器学习公开课