随机梯度下降（Stochastic gradient descent）

最新推荐文章于 2025-03-13 19:07:29 发布

JimmyCM

最新推荐文章于 2025-03-13 19:07:29 发布

阅读量1w

点赞数 5

分类专栏：数学理论凸优化及其应用

本文链接：https://blog.csdn.net/zbwgycm/article/details/104657547

版权

数学理论同时被 2 个专栏收录

13 篇文章

订阅专栏

凸优化及其应用

11 篇文章

订阅专栏

总目录

一、凸优化基础（Convex Optimization basics）

凸优化基础（Convex Optimization basics）

二、一阶梯度方法（First-order methods）

三、对偶

Introduction

前面介绍过了多种梯度下降的方法，当数据规模比较小时，我们可以使用这些方法计算在所有数据上的梯度并进行更新迭代。而当数据规模比较大时，每次计算所有数据梯度的开销将会非常巨大。由于随机梯度下降可以大大减小计算开销，因此常用于大规模数据优化中。

随机梯度下降

考虑这样一个最优化问题
$\min_{x}\frac{1}{m}\sum^{m}_{i=1}f_i(x)$
即最小化一系列函数的平均值。该问题的梯度为 $\nabla \sum^{m}_{i=1}f_i(x)=\sum^{m}_{i=1}\nabla f_i(x)$ 。常规的梯度下降就是不断迭代：
$x^{(k)}=x^{(k-1)}-t_k\cdot \frac{1}{m}\sum^m_{i=1}\nabla f_i(x^{(k-1)}),\qquad k=1,2,3,...$

而随机梯度下降（SGD）则是迭代：
$x^{(k)}=x^{(k-1)}-t_k\cdot \nabla f_{i_k}(x^{(k-1)}),\qquad k=1,2,3,...$

其中， $i_k\in \{1,...,m\}$ 是在第k次迭代中被选择的函数索引。

有两种方式选择 $i_k$ :

随机方式：从取值范围中均匀随机选择 $i_k\in \{1,...,m\}$
循环方式：依次选取 $i_l=1,2,...,m,1,2,...,m,...$

其中，随机方式是实践中最常用的，对于随机方式来说：
$E[\nabla f_{i_k}(x)]=\nabla f(x)$

因此我们可以把SGD的每一步看做是梯度的无偏估计。
SGD将每个函数看成是独立的，每次只优化部分函数，可以大大节省内存消耗。

例子：随机逻辑回归（stochastic logistic regression）
给定 $(x_i,y_i)\in R^p\times \{0,1\},i=1,...,n$ ，逻辑回归定义为：
$\min_\beta \frac{1}{n}\sum^n_{i=1}(-y_ix^T_i\beta+log(1+\exp(x^T_i\beta)))$

其梯度为 $\nabla f(\beta)=\frac{1}{n}\sum^n_{i=1}(y_i-p_i(\beta))x_i$
对于完全梯度下降来说：每次batch迭代更新的花费为 $O (n p)$ ，而对于SGD来说，每次随机迭代更新的花费为 $O (p)$ 。
我们取 $n = 10$ ， $p = 2$ 来看一下两者收敛曲线的比较：

我们可以看到SGD在离最优点比较远时收敛得比较快，而在接近最优点时比较难收敛到最优点。

步长的选择

通常SGD使用递减的步长，比如 $t_k=1/k$ 。如果使用固定步长，则在接近最优点时会很难继续收敛。

收敛率

在以前的章节里提到，对于凸函数 $f$ ，使用递减步长的梯度下降方法的收敛率为 $O(1/\sqrt{k})$ 。当 $f$ 可微且有Lipshitz梯度时，对于合适的固定步长有 $O (1 / k)$ 的收敛率。那么对于SGD如何呢？对于凸函数 $f$ ，使用递减步长的SGD的期望收敛率为 $O(1/\sqrt(k))$ 。然而，与梯度下降不同的是，SGD不会随着进一步假设 $f$ 有Lipshitz梯度而提升。甚至当 $f$ 是强凸时会变得更糟。
当 $f$ 是强凸且有Lipshitz梯度时，梯度下降有 $O(\gamma^k)$ 的收敛率，其中 $0<\gamma<1$ 。但是相同条件下，SGD只有 $O (1 / k)$ 的期望收敛率。那么有没有什么方法可以提升SGD呢？

小批量随机梯度下降

常用的SGD是小批量随机梯度下降（mini-batch stochastic gradient descent）。我们随机选取一个子集 $I_k\subseteq \{1,...,m\},\ |I_k|=b\ll m$ ，然后重复迭代：
$x^{(k)}=x^{(k-1)}-t_k\cdot \frac{1}{b}\sum_{i\in I_k}\nabla f_i(x^{(k-1)}),\qquad k=1,2,3,...$

使用小批量可以将方差减小 $1 / b$ ，但同样要多花费 $b$ 倍时间。同时收敛率也有所提升。
再次考虑上面例子中的逻辑回归问题，当 $n = 10, 000, p = 20$ 时，所有方法都用固定步长，可以得到：
在这里插入图片描述
但从总体结果来看，使用小批量随机梯度下降并不能显著提升总的开销和精度。