Proximal Algorithms

最新推荐文章于 2022-05-14 17:27:17 发布

机器学习的小学生

最新推荐文章于 2022-05-14 17:27:17 发布

阅读量7.7k

点赞数 5

分类专栏：凸优化

本文链接：https://blog.csdn.net/raby_gyl/article/details/51942994

版权

凸优化专栏收录该内容

28 篇文章 6 订阅

订阅专栏

Proximal Algorithms:近端算法，近似算法
proximal operator:近端操作，近似操作

1 简介

1.1定义

a proper convex function:
在数值分析和优化中，一个proper convex function 函数是这样的一个凸函数，其在扩展实轴上的取值满足：
至少存在一个 $x$ ，使得 $f(x) < + \infty$
并且对于所有的 $x$ ， $f(x)>--\infty$
一个凸函数是适当的，也就是说，其在有效定义域内为非空的，并且不能取得 $-\infty$ .
a closed convex funciton:
一个函数 $f:\mathbb{R}^n \rightarrow \mathbb{R}$ ，如果对于每一个 $\alpha \in \mathbb R$ ，其水平子集 $\{x \in dom f|f(x) \leq \alpha \}$ 是一个闭集，那么我们称函数 $f$ 是闭凸函数。

令 $f: \mathbf R^n \rightarrow \mathbf R \cup \{+\infty \}$ 是一个适当的闭的凸函数(a closed proper convex function)，这意味着，函数 $f$ 的上镜图：

e p i f = {(x, t) \in R n \times R | f (x) \leq t}

$\mathbf {epi} f=\{(x,t) \in \mathbf R^n × \mathbf R|f(x) \leq t \}$
是一个非空闭凸集。函数

f $f$ 的有效域：

f = {x \in R n | f (x) < + \infty},

$\mathbf f=\{ x \in \mathbf R^n | f(x) <+\infty \},$
也就是说，函数

f $f$ 在该点集合上为有限值。
函数

f $f$ 的近端操作

proxf $\mathbf {prox}_f$ :

Rn→Rn $\mathbf R^n \rightarrow \mathbf R^n$ 定义为：

p r o x f (v) = a r g min x (f (x) + (1 / 2) | | x - v | | 22), (1.1)

$\mathbf {prox}_f(v)=arg \min_x\big ( f(x)+(1/2)||x-v||_2^2 \big), \qquad(1.1)$
其中

||⋅||2 $||\centerdot||_2$ 是欧式范数。公式右手边(

minx $\min_x$ 内）函数是强凸函数，并且不是处处无限，因此

for ∀ v∈Rn $for \ \forall \ v \in \mathbf R^n$ (甚至当

domf⊂Rn $\ \mathbf{dom} f \subset \mathbf R^n$ ),该函数有唯一的最小值。
我们经常会碰到scaled function

λf $\lambda f$ 的 近端操作（其中

λ>0 $\lambda >0$ ），其可以表示为，

p r o x λ f (v) = a r g min x (f (x) + (1 / 2 λ) | | x - v | | 22) . (1.2)

$\mathbf{prox}_{\lambda f} (v)=arg \min_x \big( f(x)+(1/{2\lambda})||x-v||_2^2 \big ).\qquad (1.2)$
这也可以称作带有参数

λ $\lambda$ 的函数

f $f$ 的近端操作。(为了符号的简洁，我们写成

1/2λ $1/2\lambda$ ,而不是

(1/(2λ)). $(1/(2\lambda)).$ )

1.2 解释

图1.1描述了近端操作。细黑线是凸函数 $f$ 的等值线。粗黑线表示其定义域的边界。在蓝色的点处计算 $\mathbf {prox}_f$ ，则为相应的红色点。函数定义域中的三个点任然在定义域中，并且移动到函数的最小值，同时，另外两个点移动到定义域的边界并且朝向函数的最小值。参数 $\lambda$ 控制近端操作将点映射到函数 $f$ 的最小值的程度， $\lambda$ 值越大，则映射后的点更接近最小值， $\lambda$ 值越小，则向最小值移动的步长越小。
这里写图片描述
近端操作的定义表明， $\mathbf {prox}_f(v)$ 的点是最小化函数 $f$ 和临近 $v$ 的折中。因此， $\mathbf {prox}_f(v)$
有时称为 $v$ 关于 $f$ 的一个近端点（临近点，proximal point）.在 $\mathbf {prox}_{\lambda f}$ 中，参数 $\lambda$ 可以解释为这两个项之间的相对权重或者折中参数。
当 $f$ 是个示性函数(indicator function):

I C (x) = {0, + \infty, if x \in C if x \notin C

$I_C(x)=\begin{cases} 0, & \text {if $x\in C$}\\ +\infty,&\text{ if $x\notin C$} \end{cases}$
其中

C $C$ 是闭的非空凸集，函数

f $f$ 的近端操作降为到集合

C $C$ 上的欧式投影，其表示为：

Π C (v) = a r g min x \in C | | x - v | | 2 (1.3)

$\Pi_C(v)=arg\min_{x\in C} ||x-v||_2 \qquad (1.3)$
因此，近端操作可以看作是广义投影。
函数

f $f$ 的近端操作也可以解释为函数

f $f$ 的一类梯度步（gradient step）。特别的，当

λ $\lambda$ 很小，并且

f $f$ 可微时。，我们有：

p r o x λ f (v) \approx v - λ ▽ f (v)

$\mathbf {prox}_{\lambda f}(v)\approx v-\lambda \triangledown f(v)$
这表明，近端操作和梯度方法之间存在着紧密的联系，同时暗示着近端操作在优化中很有用，也同样表明，

λ $\lambda$ 扮演的角色类似于梯度方法中的步长。
最终，函数

f $f$ 的近端操作的固定点(fixed points)恰好是函数

f $f$ 的最小值。话句话说，当且仅当，

x∗ $x^*$ 是函数

f $f$ 的最小值时，

proxλf(x∗)=x∗ $\mathbf {prox}_{\lambda f}(x^*)=x^*$ 成立。这表明，近端操作和固定点理论紧密相连，并且近端算法可以解释为通过找到适当操作（appropriate operators，可能为approximate operators）的固定点来求解最优化问题。

1.3 近端算法

近端算法就是指，在求解凸优化问题中，使用了目标项(object terms)的近端操作的算法。
近端算法的优点：
1、其可以应用于一般情况下，包括函数为非平滑的情况。
2、计算快。因为可以存在函数的简单的近端操作。
3、可以用于分布式优化，因此其可以用于解决大规模问题。
4、概念和数学上简单，对于一个特定的问题，易于理解，推导和实现。
实际上，许多近端算法可以解释为其他众所周知并且广泛使用的算法的推广，像投影梯度法。