加速梯度下降法

最新推荐文章于 2024-03-15 10:12:44 发布

机器学习的小学生

最新推荐文章于 2024-03-15 10:12:44 发布

阅读量1.4w

点赞数 8

分类专栏：凸优化

本文链接：https://blog.csdn.net/raby_gyl/article/details/53157970

版权

凸优化专栏收录该内容

28 篇文章 6 订阅

订阅专栏

Nesterov’s Accelerated Gradient Descent

一般的梯度下降算法的收敛速率为
$o(1/t)$ , $t$ 表示迭代的次数。但是人们已经证明了随着迭代次数 $t$ 的增加。收敛速率可以到达 $o(1/t^2)$ .

1.简介:

加速梯度算法(AGD)是梯度算法(GD)的一个改进的版本。Nesterov 在1983年首次提出。人们已经证明AGD算法是所有基于梯度算法（或者说一阶）算法中最好的方法。然而原始的AGD算法仅能处理光滑的凸优化问题。最新的进展是，将AGD扩展到了更广泛类型的凸优化问题：

min x f (x) + g (x)

$\min_x f(x)+g(x)$
其中

f(x) $f(x)$ 是平滑的凸函数,

g(x) $g(x)$ 是闭凸函数。同样可以获得相似的收敛速率。

2.算法

AGD算法可以概括为算法1：，其中有两种方式确定步长 $\gamma$
这里写图片描述
首先，类似于梯度下降算法，为了确保收敛率，我们可以设置 $\gamma$ 为一个足够小的数，特别的， $\gamma \leq (||\triangledown ^2 f(x)||^{-1} ) \quad \forall x$ 。其次，我们可以使用直线搜索，自适应地确定步长，满足:

f (x k + 1) \leq m y k, γ (x k + 1)

$f(x_{k+1} )\leq m_{y_k,\gamma}(x_{k+1})$
其中：

x k + 1 = prox γ g (\cdot) (y k - γ ▽ f (y k))

$x_{k+1}=\text{prox}_{\gamma g(\cdot)}(y_k-\gamma \triangledown f(y_k))$

proxγg(⋅)(⋅) $\text{prox}_{\gamma g(\cdot)}(\cdot)$ 表示近端操作（近似操作）。即：

prox γ g (\cdot) (v) = argmin z \in R n 1 2 γ | | v - z | | 2 + g (z)

$\text{prox}_{\gamma g(\cdot)}(v)=\text{argmin}_{z \in R^n}\frac{1}{2\gamma}||v-z||^2+g(z)$

通常给定 $\gamma$ 的情况下，我们先求解： $v=y_k-\gamma \triangledown f(y_k)$ ，然后再求解 $\text{prox}_{\gamma g(\cdot)}(v)$ .
注意：序列 $\{ t_k\}$ 满足下面的三个属性：

$\{ t_k\}$ 是正的，并且递增
$t_{k+1} \geq t_k+\frac{1}{2}$
$frac{t_0-1}{t_1}=0$ 并且 $\text{lim}_{t \rightarrow \infty}\frac{t_k-1}{t_k+1}=1$

3.收敛率：

AGD 是最优的基于梯度的方法。因为它提供了最优的收敛率。假定满足下面的Lipschitz 条件。
假设1. 假定平滑的凸函数 $f(x)$ 拥有一个Lipschitz梯度。也就是说存在常数L，满足：

f (y) \leq f (x) + < ▽ f (x), y - x > + L 2 | | y - x | | 2 x, y

$f(y) \leq f(x) +<\triangledown f(x),y-x>+\frac{L}{2}||y-x||^2 \quad x,y$

在这个假设下，如果步长选择的足够小，或者通过直线搜索确定，那么我们有下面的收敛率：

F (x k) - F * \leq O (1 k 2)

$F(x_k)-F^* \leq O \left (\frac{1}{k^2} \right )$

另外一种解释方法:

首先定义下面的序列：

λ 0 = 0, λ s = 1 + 1 + 4 λ 2 s - 1 - - - - - - - - \sqrt 2, and, γ s = 1 - λ s λ s + 1

$\lambda_0=0 ,\lambda_s=\frac{1+\sqrt{1+4 \lambda_{s-1}^2}}{2} ,\text{and} , \gamma_s=\frac{1-\lambda_s}{\lambda_{s+1}}$
注意：

γs≤0 $\gamma_s \leq 0$ ,。现在算法通过下面的等式简单的定义，初始点

x1=y1 $x_1=y_1$ 是任意的。

y s + 1 = x s - 1 β ▽ f (x s)

$y_{s+1}=x_s-\frac{1}{\beta}\triangledown f(x_s)$

x s + 1 = (1 - γ s) y s + 1 + γ s y s

$x_{s+1}=(1-\gamma_s)y_{s+1}+\gamma_sy_s$

换句话说：
Nesterov加速梯度下降法执行简单的梯度下降步骤,从 $x_s$ 到 $y_{s+1}$ 。然后通过先前的点 $y$ 给定的方向上，轻微的滑动，进一步的远离 $y_{s+1}$ .

参考文献：

https://blogs.princeton.edu/imabandit/2013/04/01/acceleratedgradientdescent/
[ORF523: Nesterov’s Accelerated Gradient Descent]
CSC 576: Accelerated Gradient Descent Algorithm
Gradient methods for minimizing composite objective function [Nesterov2007]

机器学习的小学生

关注

8
点赞
踩
52

收藏

觉得还不错? 一键收藏
0
评论
加速梯度下降法

Nesterov’s Accelerated Gradient Descent一般的梯度下降算法的收敛速率为 o(1/t)o(1/t),tt表示迭代的次数。但是人们已经证明了随着迭代次数tt的增加。收敛速率可以到达o(1/t2)o(1/t^2).1.简介: 加速梯度算法(AGD)是梯度算法(GD)的一个改进的版本。Nesterov 在1983年首次提出。人们已经证明AGD算法是所有基于梯度算法
复制链接

扫一扫