梯度下降（Gradient Descent）

最新推荐文章于 2025-03-20 15:51:45 发布

JimmyCM

最新推荐文章于 2025-03-20 15:51:45 发布

阅读量4.5k

点赞数 6

分类专栏：数学理论凸优化及其应用

本文链接：https://blog.csdn.net/zbwgycm/article/details/104499315

版权

数学理论同时被 2 个专栏收录

13 篇文章

订阅专栏

凸优化及其应用

11 篇文章

订阅专栏

总目录

一、凸优化基础（Convex Optimization basics）

凸优化基础（Convex Optimization basics）

二、一阶梯度方法（First-order methods）

三、对偶

梯度下降

考虑一个无约束的，平滑的凸优化问题
$min_x f(x)$

其中， $f$ 是凸函数，且在定义域 $dom(f)=R^n$ 上是可微的。

算法

选择一个初始点 $x^{(0)}\in R^n$ ，重复操作：
$x^{(k)} = x^{(k-1)} - t_k \cdot \nabla f(x^{(k-1)}),\ k=1,2,3.,..$

直到达到某阈值后停止。梯度下降法就是沿着梯度减小的方向，每次走一定的步长，直到到达最优点为止。
在这里插入图片描述

梯度下降的解释

在每一次迭代中，对当前点做二次泰勒展开：
$f(y)\approx f(x)+\nabla f(x)^T(y-x)+\frac{1}{2t}\|y-x\|^2_2$

这里用 $\frac{1}{t}I$ 代替了二次项系数海森矩阵 $\nabla^2 f(x)$ 。
选择下一个点 $y=x^+$ 去最小化该二次近似可以得到：
$x^+=x-t\nabla f(x)$

所以，梯度下降相当于在函数的每个点处都做二次近似，然后求解最小点的位置。

在这里插入图片描述

步长的选择

既然梯度下降每次迭代都要走一定的步长，那这个步长要怎么选择呢？
一种简单的方式是把步长固定，每次都移动常数距离， $t_k=t,\ for\ all\ k=1,2,3,...$ 。但是这样存在问题，如果 $t$ 太大，梯度下降可能会发散而不收敛；如果 $t$ 太小，梯度下降就会收敛很慢。只有 $t$ 选得“刚好”时，才能兼顾收敛性和收敛速度。另一种方法可以自适应地调整步长——回溯线性搜索

回溯线性搜索

首先固定参数 $0<\beta<1$ 和 $0<\alpha\leq 1/2$
在每次迭代中，首先设置 $t=t_{init}$ ，然后只要：
$f(x-t\nabla f(x))>f(x)-\alpha t \|\nabla f(x)\|^2_2$ 就收缩 $t=\beta t$
重复步骤2，直到满足条件为止。然后进行梯度下降更新：
$x^+=x-t\nabla f(x)$

在这里插入图片描述
在实践中可以进一步简化 $\alpha=1/2$ 。

收敛性分析

已知 $f$ 是凸函数，且在定义域 $dom(f)=R^n$ 上是可微的。而且 $\nabla f$ 是关于常数 $L > 0$ Lipschitz连续的：
$\|\nabla f(x)-\nabla f(y)\|_2 \leq L\|x-y\|_2\quad for\ any\ x,y$ （或者说二次微分 $\nabla ^2f(x) \preceq LI$ ）
那么，梯度下降有 $O (1 / k)$ 的收敛率， $k$ 为迭代次数。也就是说，在 $O(1/\epsilon)$ 次迭代后，可以找到 $\epsilon$ 误差的次优点。
如果 $f$ 是强凸的，即存在 $m > 0$ ，使得 $f(x)-\frac{m}{2}\|x\|^2_2$ 是凸的（或者说二次微分 $\nabla ^2f(x) \succeq mI$ ），那么收敛率将会达到指数收敛率 $O(\gamma ^k)$ ， $0<\gamma<1$ 。也就是说，在 $O(log(1/\epsilon))$ 次迭代后，可以找到 $\epsilon$ 误差的次优点。