Proximal Algorithms--proximal gradient algorithm

最新推荐文章于 2022-04-06 18:17:01 发布

机器学习的小学生

最新推荐文章于 2022-04-06 18:17:01 发布

阅读量4.7k

点赞数 3

分类专栏：凸优化

本文链接：https://blog.csdn.net/raby_gyl/article/details/51985908

版权

凸优化专栏收录该内容

28 篇文章 6 订阅

订阅专栏

4.2 近端梯度法

Proximal gradient method
无约束的优化问题，代价函数可以分成两个部分:

m i n f (x) = g (x) + h (x)

$min f(x)=g(x)+h(x)$

其中
1. $g$ 是凸的，可微的，并且 $\mathbf {dom} _g =\mathbf {R}^n$ ,
2. $f$ 是闭的，凸的，可能不可微， $\mathbf {prox}_h$ 容易计算。

例如问题：L1 norm regularize least-squares

minimize 1 2 | | A x - b | | 22 + | | x | | 1

$\text{minimize} \frac{1}{2} ||Ax-b||_2^2+||x||_1$

近端梯度算法：

x (k) = p r o x t k h (x k - 1 - t k ▽ g (x (k - 1))

$x^{(k)}=\mathbf{prox}_{t_k h} \big (x^{k-1} -t_k \triangledown g(x^{(k-1)} \big)$
其中

tk>0 $t_k>0$ 是步长，其是常数或者通过线性搜索确定。为了简洁，写成：

x + = p r o x t h (x - t k ▽ g (x))

$x^+=\mathbf{prox}_{t h} \big (x -t_k \triangledown g(x) \big)$
由近端操作的定义得到：

x + = a r g min u (h (u) + 1 2 t | | u - x + t ▽ g (x) | | 22)

$x^+=arg \min_u \big ( h(u)+\frac{1}{2t}||u-x+t\triangledown g(x)||_2^2 \big)$

= a r g min u (h (u) + g (x) + ▽ g (x) T (u - x) + 1 2 t | | u - x | | 22)

$=arg \min_u \big ( h(u)+g(x)+\triangledown g(x)^T(u-x)+\frac{1}{2t}||u-x||_2^2 \big)$

x+ $x^+$ 最小化

h(u) $h(u)$ 加上

g(u) $g(u)$ 在

x $x$ 处展开的简单的二次局部模型。

一些特例：
1.梯度方法(gradient method)： $h(x)=0$ ，即最小化 $g(x)$

x (k) = x (k - 1) - t k ▽ g (x (k - 1))

$x^{(k)}=x^{(k-1)}-t_k \triangledown g(x^{(k-1)})$
2.梯度投影方法(gradient projection method):

h(x)=IC(x) $h(x)=I_C(x)$ ，也即是在集合

C $C$ 上最小化函数

g(x) $g(x)$

x (k) = P C (x (k - 1) - t k ▽ g (x (k - 1)))

$x^{(k)}=P_C \big (x^{(k-1)}-t_k \triangledown g(x^{(k-1)}) \big )$
3.迭代软阈值(iterative soft-thresholding)：

h(x)=||x||1 $h(x)=||x||_1$ ，即最小化:

g(x)+||x||1 $g(x)+||x||_1$

x (k) = p r o x t k h (x k - 1 - t k ▽ g (x (k - 1))

$x^{(k)}=\mathbf{prox}_{t_k h} \big (x^{k-1} -t_k \triangledown g(x^{(k-1)} \big)$
并且:

p r o x t h (u) i = ⎧ ⎩ ⎨ u i - t, 0, u i + t, u i \geq t - t \leq u i \leq t u i \geq t 这 里 应 该 修 改 为 u i \leq - t

$\mathbf {prox}_{th}(u)_i = \begin{cases} u_i-t, & u_i \geq t\\ 0, & -t \leq u_i \leq t \\ u_i+t, & \color{red}{u_i \geq t 这里应该修改为 u_i \leq -t} \end{cases}$

推导：
$h(x)$ 的近端投影:

$p r o x t h (u) = a r g min x (| | x | | 1 + 1 2 λ | | x - u | | 22)$ $\mathbf {prox}_{th}(u)=arg \min_{x} \big (||x||_1+\frac {1}{2\lambda}||x-u||_2^2 \big)$
将 $u$ 看作常数，求函数 $f(x)=||x||_1+\frac {1}{2\lambda}||x-u||_2^2$ 的最小值，考虑一维的情况，因为函数 $||x||_1$ 并不是处处可微的，因此函数为：
$f (x) = {x + 1 2 λ | | x - u | | 22, - x + 1 2 λ | | x - u | | 22, x \geq 0 x \leq 0$ $f(x)= \begin{cases} x+\frac {1}{2\lambda}||x-u||_2^2 , & x \geq0\\ -x+\frac {1}{2\lambda}||x-u||_2^2 , & x\leq0 \end{cases}$
则导数：
$f' (x) = {1 + 1 λ (x - u), - 1 + 1 λ (x - u), x > 0 x < 0$ $f'(x)= \begin{cases} 1+\frac {1}{\lambda}(x-u) , & x >0\\ -1+\frac {1}{\lambda}(x-u) , & x<0 \end{cases}$
$f' (x) = 0, 则 {x = u - λ, x = u + λ, x > 0 并且 u - λ > 0 x < 0 并且 u + λ < 0$ $f'(x)=0,则 \begin{cases} x=u-\lambda , & x >0 并且 u-\lambda >0\\ x=u+\lambda , & x<0并且u+\lambda<0 \end{cases}$
则数:
$a r g min x f (x) = ⎧ ⎩ ⎨ u - λ, u + λ, 0, u - λ > 0 u + λ < 0 - λ < u < λ$ $arg\min_xf(x)= \begin{cases} u-\lambda ,& u-\lambda>0 \\ u+\lambda , &u+\lambda<0 \\ 0, &-\lambda<u<\lambda \end{cases}$

解释：
情况1，当 $x>0$ 时， $u-\lambda>0$ 和当 $x<0$ 时， $u+\lambda<0$ ，在这种情况下，两个抛物线的最低点落在了各自的区间内。
情况2：左边的抛物线的最低点落在了右区间，即 $x>0$ 的区域，右边的抛物线落在了左区间，这样的情况下，最低点是在 $x=0$ 的区域。

投影梯度迭代

投影梯度迭代最小化公式： $g(x)+h(x)$

x (k) = p r o x t k h (x k - 1 - t k ▽ g (x (k - 1))

$x^{(k)}=\mathbf{prox}_{t_k h} \big (x^{k-1} -t_k \triangledown g(x^{(k-1)} \big)$
上式可以写成：

x (k) = x (k - 1) - t k G t k (x (k - 1))

$x^{(k)}=x^{(k-1)}-t_k G_{t_k}(x^{(k-1)})$ 其中

G t (x) = 1 t (x - p r o x t h (x - t ▽ g (x)))

$G_t(x)=\frac{1}{t}(x-\mathbf {prox}_{th}(x-t \triangledown g(x)))$
上式的类似于常规的梯度下降法。
从次梯度和近端操作的关系：

u = p r o x h (x) \Leftrightarrow u - x \in \partial h (u)

$u=\mathbf {prox}_h(x) \Leftrightarrow u-x \in \partial h(u)$
得到：

G t (x) \in ▽ g (x) + \partial h (x - t G t (x)) (.0)

$G_t(x) \in \triangledown g(x)+\partial h(x-tG_t(x)) \quad (.0)$

当前仅当 $x$ 最小化 $f(x)=g(x)+h(x)$ 时， $G_t(x)=0$
很容易理解，我们将 $G_t(x)=0$ 带入得到上式两边，得到:

0 \in ▽ g (x) + \partial h (x)

$0 \in \triangledown g(x)+\partial h(x)$

线性搜索

line search
为了确定下面公式的步长:

x + = x - t G t (x)

$x^+=x-t G_t(x)$
我们从某个

t:=t^ $t:=\hat t$ 开始，重复

t:=βt $t:=\beta t$ (

0<β<1） $0<\beta<1）$ ，直到：

g (x - t G t (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22

$g(x-t G_t(x)) \leq g(x)-t \triangledown g(x)^TG_t(x)+\frac{t}{2}||G_t(x)||_2^2$
1. 每次线性搜索迭代过程，需要计算

prox $\mathbf {prox}$ 。
2. 上面收敛条件不等式的推导参考下面收敛分析。
3. 许多其他类型的搜索工作

近端梯度方法的收敛性分析

假定:
1. $\triangledown g$ 是Lipschitz continuous，

| | ▽ g (x) - ▽ g (y) \leq L | | x - y | | 2 \forall x, y

$||\triangledown g(x)-\triangledown g(y) \leq L||x-y||_2 \quad \forall x,y$
2.最优值

f∗ $f^*$ 是有限的，并且在

x∗ $x^*$ 可达到的（无需唯一）。
结果：我们将给出

f(x(k)−f∗ $f(x^{(k)}-f^*$ 的收敛速度至少为

1/k $1/k$ 。

凸函数的仿射下界：
affine lower bound from convexity:

g (y) \geq g (x) + ▽ g (x) T (y - x) \forall x, y

$g(y) \geq g(x)+ \triangledown g(x) ^T(y-x) \quad \forall x,y$

证明：带有拉格朗日余项的二阶泰勒展开:

$g (y) = g (x) + ▽ g (x) T (y - x) + 1 2 (y - x) T ▽ 2 g (ξ) (y - x)$ $g(y)=g(x)+\triangledown g(x)^T(y-x)+\frac{1}{2}(y-x)^T\triangledown ^2g(\xi)(y-x)$
其中对于凸函数 $\triangledown ^2g(\xi) \geq 0$ ，因此证毕。

凸函数的二次上界：

g (y) \leq g (x) + ▽ g (x) T (y - x) + L 2 | | y - x | | 22 \forall x, y

$g(y) \leq g(x)+ \triangledown g(x)^T(y-x) +\frac{L}{2}||y-x||_2^2 \forall x,y$

证明：
$g(y)=g(x)+\triangledown g(x)^T v+(g(y)-g(x)-\triangledown g(x)^Tv)$
其中

$▽ g (x) T v = \int 10 ▽ g (x) T v d t$ $\triangledown g(x)^Tv=\int_{0}^{1}\triangledown g(x)^Tvdt$ ，其中 $t$ 是与 $v$ 无关的变量。
$lim v \to 0 g ( y ) - g ( x ) v = lim v \to 0 \int 10 ▽ g (x + t v) T d t (.1)$ $\lim_{v\rightarrow 0} \frac{g(y)-g(x)}{v}=\lim_{v \rightarrow 0} \int_{0}^{1}\triangledown g(x+tv)^Tdt \quad (.1)$
$g (y) - g (x) = \int 10 ▽ g (x + t v) T v d t (.2)$ $g(y)-g(x)=\int_{0}^{1}\triangledown g(x+tv)^Tvdt \quad(.2)$
由公式.2可以推出公式.1,但是公式.1推不出公式.2. 不参考文中是如何理解的。
换种方法推导上界1.，(参考：凸优化中文版 pdf 454页）
因为 $▽ g 2 (x) \leq M I$ $\triangledown g^2(x) \leq M I$
带入到泰勒展开即可：
$g (y) \leq g (x) + ▽ g (x) T (y - x) + M 2 | | y - x | | 22 \forall x, y$ $g(y) \leq g(x)+ \triangledown g(x)^T(y-x) +\frac{M}{2}||y-x||_2^2 \quad \forall x,y$
注意，参考文中也没有写错，应该采用下面的推导理解方法吧？
换种方法推导上界2.
如何函数 $\triangledown g(x)$ 是Lipschitz 连续，其中常数量使用 $L$ 表示，则：
$| | ▽ g (x) - ▽ g (y) | | 2 \leq L | | x - y | | 2$ $||\triangledown g(x) -\triangledown g(y)||_2 \leq L ||x-y||_2$
对于一维的情况：
$| ▽ g (x) - ▽ g (y) | \leq L | x - y |$ $|\triangledown g(x) -\triangledown g(y)| \leq L |x-y|$ ，
则：
$| ▽ g ( x ) - ▽ g ( y ) | | x - y | \leq L$ $\frac{|\triangledown g(x) -\triangledown g(y)|}{|x-y|} \leq L$
两边取极限得到：
$-\triangledown^2g(x) \leq L$ 或者 $\triangledown^2g(x) \leq L$ ，因为 $\triangledown^2g(x) \geq 0$ ，所以范围为：
$0 \leq ▽ 2 g (x) \leq L$ $0\leq \triangledown^2g(x) \leq L$
则将其带入到泰勒展开式得到：
$g (y) \leq g (x) + ▽ g (x) T (y - x) + L 2 | | y - x | | 22 \forall x, y$ $g(y) \leq g(x)+ \triangledown g(x)^T(y-x) +\frac{L}{2}||y-x||_2^2 \quad \forall x,y$

consequences of Lipschiitz assumption

我们知道
$x^+=x-tG_t(x)$ ，或者 $y=x-tG_t(x)$
将其带入到凸函数的二次上界不等式中:

g (x - t G t (x)) \leq g (x) + ▽ g (x) T (- t G t (x)) + L 2 | | - t G t (x) | | 22

$g(x-tG_t(x)) \leq g(x)+ \triangledown g(x)^T(-tG_t(x))+\frac{L}{2}||-tG_t(x)||_2^2 \quad$

g (x - t G t (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 L 2 | | G t (x) | | 22

$g(x-tG_t(x)) \leq g(x)- t\triangledown g(x)^TG_t(x)+\frac{t^2L}{2}||G_t(x)||_2^2 \quad$
那么下面的回溯线性搜索不等式，在

0≤t≤1/L $0 \leq t \leq 1/L$ 条件下成立：

g (x - t G t (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22 (3.2)

$g(x-tG_t(x)) \leq g(x)- t\triangledown g(x)^TG_t(x)+\frac{t}{2}||G_t(x)||_2^2 \quad(3.2)$
这很容易验证，只要在

0≤t≤1/L $0 \leq t \leq 1/L$ 区间内，

t2≥t2L2 $\frac {t}{2} \geq \frac{t^2L}{2}$ ,即函数

f(t)=t2−t2L2≥0 $f(t)=\frac{t}{2}-\frac{t^2L}{2} \geq 0$ ，函数为开口向下的抛物线，与

t $t$ 轴的交点分别为

0 $0$ 和

1/L $1/L$ 。

回溯直线搜索：
给定函数 $f$ 在 $x \in \mathbf {dom} f$ 处的下降方向 $-G_t(x)$ ，参数 $\alpha \in (0,0.5) ,\beta \in (0,1)$ 。
令 $t:=\hat t$ .
如果函数 $g(x-tG_t(x)) > g(x)- t\triangledown g(x)^TG_t(x)+\frac{t}{2}||G_t(x)||_2^2 \quad$ 令 $t=\beta t$

回溯直线搜索（或者回溯线性搜索），从 $t=\hat t$ 开始，终止的时候满足：

t≥tmin=min{t^,β/L}

$t \geq t_{min} =min\{\hat t,\beta /L\}$

很容易理解，只要 $t$ 落在 $0$ 和 $1/L$ 范围内，回溯搜索算法就停止，返回 $t$ ,那么如果开始的取值 $\hat t \in [0,1/L]$ 算法停止，如果 $\hat t>1/L$ ，
假设算法迭代过程中达到 $t =1/L+o$ 处，其中 $o$ 是很小的正常数。那么需要在迭代一次才能落入到算法停止的范围内：

t : = β t = (β / L + β o)

$t:=\beta t=(\beta /L +\beta o)$
当

o→0+ $o \rightarrow 0^+$ 时，

t:=βt=(β/L)+ $t:=\beta t=(\beta /L)^+$
所以此时算法终止时

t∈(β/L,1/L] $t\in (\beta /L,1/L]$

a global ineuqality

如果线性搜索不等式（3.2）满足，那么我们可以推导出下面的全局不等式，其描述的是关于 $f(x-tG_t(x))$ 的不等式：

f (x - t G t (x)) \leq f (z) + G t (x) T (x - z) - t 2 | | G t (x) | | 22 (3.3)

$f(x-tG_t(x)) \leq f(z)+G_t(x)^T(x-z)- \frac{t}{2}||G_t(x)||_2^2 \quad (3.3)$

证明：
$f (x) = g (x) + h (x)$ $f(x)=g(x)+h(x)$
$f (x - t G t x (x)) = g (x - t G t x (x)) + h (x - t G t x (x))$ $f(x-tG_tx(x))=g(x-tG_tx(x))+h(x-tG_tx(x))$
$f (x - t G t x (x)) - h (x - t G t x (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22$ $f(x-tG_tx(x))-h(x-tG_tx(x)) \leq g(x)- t\triangledown g(x)^TG_t(x)+\frac{t}{2}||G_t(x)||_2^2$
$f (x - t G t x (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22 + h (x - t G t x (x))$ $f(x-tG_tx(x)) \leq g(x)- t\triangledown g(x)^TG_t(x)+\frac{t}{2}||G_t(x)||_2^2 +h(x-tG_tx(x))$
$f (x - t G t x (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22 + h (x - t G t x (x))$ $f(x-tG_tx(x)) \leq g(x)- t\triangledown g(x)^TG_t(x)+\frac{t}{2}||G_t(x)||_2^2 +h(x-tG_tx(x))$
因为: $g(z) \geq g(x)+\triangledown g(x)^T(z-x)$ ，即函数 $g(z)$ 在 $x$ 处进行展开,则
$g (x) \leq g (z) + ▽ g (x) T (x - z)$ $g(x)\leq g(z)+\triangledown g(x)^T(x-z)$
函数: $h(z)\geq f(x-tG_t(t))+\partial f(x-tG_t(t))^T(z-x+tG_t(t))$
即：
$f (x - t G t (t)) \leq h (z) + \partial f (x - t G t (t)) T (x - z - t G t (t))$ $f(x-tG_t(t)) \leq h(z)+\partial f(x-tG_t(t))^T(x-z-tG_t(t))$
以及(.0)公式，我们化简得到：
$f (x - t G t x (x)) \leq g (z) + ▽ g (x) T (x - z) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22 + h (z) + (G t (x) - ▽ g (x)) (x - z - t G t (x))$ $f(x-tG_tx(x)) \leq g(z)+\triangledown g(x)^T(x-z)- t\triangledown g(x)^TG_t(x)+\frac{t}{2}||G_t(x)||_2^2 +h(z)+(G_t(x)-\triangledown g(x))(x-z-tG_t(x))$
化简得到：
$= g (z) + h (z) + G t (x) T (x - z) - t 2 | | G t (x) | | 22$ $=g(z)+h(z)+G_t(x)^T(x-z)-\frac{t}{2}||G_t(x)||_2^2$

一次迭代过程

x + = x - t G t (x)

$x^+=x-tG_t(x)$
将

z=x $z=x$ 带入到算法3.3，得到:

f (x +) \leq f (x) - t 2 | | G t (x) | | 22

$f(x^+) \leq f(x) -\frac{t}{2}||G_t(x)||_2^2$
即

f (x +) - f (x) \leq 0

$f(x^+) -f(x) \leq 0$
这表明算法是一个下降方法。
将

z=x∗ $z=x^*$ 。带入到不等式(3.3)：

0 \leq f (x +) - f * \leq G t (x) T (x - x *) - t 2 | | G t (x) | | 22

$0 \leq f(x^+)-f^* \leq G_t(x)^T(x-x^*)- \frac{t}{2}||G_t(x)||_2^2$

= 1 2 t (| | x - x * | | 22 - | | x - x * - t G t (x) | | 22)

$=\frac{1}{2t} (||x-x^*||_2^2-||x-x^*-tG_t(x)||_2^2)$

= 1 2 t (| | x - x * | | 22 - | | x + - x * | |)

$=\frac{1}{2t} (||x-x^*||_2^2-||x^+-x^*||)$
因此：

||x−x∗||22≤||x+−x∗|| $||x-x^*||_2^2\leq ||x^+-x^*||$ ,这说明经过一次迭代，到最优点集的距离缩短了。

Analysis for fixed step size

收敛性分析for固定步长
迭代步长的大小为 $t=1/L$ ：
并且 $x=x^{(i-1)},x^+=x{(i)}$
则：

\sum i = 1 k (f (x (i) - f *) \leq 1 2 t \sum i = 1 k (| | x (i - 1) - x * | | 22 - | | x (i) - x * | | 22)

$\sum_{i=1}^k(f(x^{(i)}-f^*) \leq \frac{1}{2t} \sum_{i=1}^{k}(|| x^{(i-1)}-x^*||_2^2 - || x^{(i)}-x^*||_2^2)$

= 1 2 t (| | x 0 - x * | | 22 - | | x (k) - x * | | 22)

$=\frac{1}{2t}(|| x^{0}-x^*||_2^2 - || x^{(k)}-x^*||_2^2)$

\leq 1 2 t | | x 0 - x * | | 22

$\leq \frac{1}{2t}|| x^{0}-x^*||_2^2$
因为

f(x(i)) $f(x^{(i)})$ 是非递增的，

f (x (k)) - f * \leq 1 k \sum i = 1 k (f (x (i) - f *) \leq 1 2 k t | | x 0 - x * | | 22

$f(x^{(k)})-f^* \leq \frac{1}{k} \sum_{i=1}^k(f(x^{(i)}-f^*) \leq \frac{1}{2kt}|| x^{0}-x^*||_2^2$

因此：经过 $O(1/\epsilon)$ 次迭代，算法达到: $f(x^{(k)})-f^* \leq \epsilon$ .

参考文献：
1、http://people.eecs.berkeley.edu/~elghaoui/Teaching/EE227A/lecture18.pdf 近端梯度法
http://download.csdn.net/detail/xuluhui123/9584831

机器学习的小学生

关注

3
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
Proximal Algorithms--proximal gradient algorithm

4.2 近端梯度法 Proximal gradient method 无约束的优化问题，代价函数可以分成两个部分: minf(x)=g(x)+h(x)min f(x)=g(x)+h(x) 其中gg是凸的，可微的，并且domg=Rn\mathbf {dom} _g =\mathbf {R}^n,ff是闭的，凸的，可能不可微，proxh\mathbf {prox}_h容易计算。近端梯度算法：
复制链接

扫一扫