多面体近似方法

最新推荐文章于 2023-01-21 18:49:24 发布

MetaCom-John_W

最新推荐文章于 2023-01-21 18:49:24 发布

阅读量730

点赞数

文章标签：算法几何学

原文链接：http://www.athenasc.com/convexalgorithms.html

版权

Typora使用手册：

https://blog.csdn.net/wait_for_eva/article/details/84307306

https://www.cnblogs.com/RioTian/p/14111021.html

参考文献：

Dimitri P. Bertsekas. Convex Optimization Algorithms[M]. Massachusetts Institute of Technology.

前言

最近啃Dimitri的凸优化算法越来越艰难，啃到第四章发现不做一些笔记已经搞不定了，这些底层的东西让我掉了不少头发（bushi）。由于没有这领域的大神带路，感觉自己理解的可能也不够到位（英文文献真的是一千个读者一千个哈姆雷特），所以还是斗胆在博客挂一下自己的拙见，希望能遇到大神指点。由于书本内容还没有读完，所以这些笔记暂时不写总结部分。

多面体近似方法

在本章，我们将要讨论利用多面体近似的方法，极小化定义在闭凸集 $X$ 上的实值凸函数。我们通过求解以下近似问题：
$x_{k+1}\in \arg {\min}_{x\in X_k}F_k(x)$
来得到一个点列 ${{x_k}\}$ ，此处 $F_k$ 是一个用于近似 $f$ 的多面体函数（什么是多面体函数？）， $X_k$ 是一个用于近似 $X$ 的多面体集合（在某些变量下，该近似方法得到的结果是唯一的）。鉴于上述集合与函数的多面体结构，它们的求解方法比过去非多面体结构的集合与函数要简单。通过上述方法，我们可以使得求解的结果越来越接近真实解，在极限意义下我们可以求得精确解。

4.1 外线性化——切平面方法

首先，我们先来看附录B的定理1.5.4：

定理 1

凸集 $C$ 的闭包是一个由一系列半空间相交形成的集合，这个集合包含 $C$ 。特别的，一个闭凸集是一个由一系列半空间相交所生成的集合。

切平面方法的核心思想基于上述定理：用支撑超平面的交集来表示凸集的凸包。

在本节中，我们讨论的问题是：极小化定义在闭凸集 $X$ 上的凸函数 $f:R^n\longrightarrow R$ 。

首先，我们有关于目标函数 $f$ 的若干已知点 $x_0,x_1,...,x_k$ 组成的点列 ${x_k\}$ ，定义关于已知点的函数：
$F_k(x)=\max(f(x_0)+(x-x_0)^Tg_0,...,f(x_k)+(x-x_k)^Tg_k)$
易做出 $F_k(x)$ 的大致图像（以三个点为例）：

在这里插入图片描述

上图中，红线标出来的部分即为 $F_k(x)$ 。

接下来，我们来计算：
$x_{k+1}\in\text{ arg } _{x\in{X_k}} \min F_k(x)$
由 $F_k(x)$ 的图像易知，这样的 $x_{k+1}$ 是存在的，此时我们得到新的点列 ${x_{k+1}\}$ ，再重复上述步骤，理论上我们就能够得到最优解 $x^*$ 。

上述的讨论是基于 $F_k(x)$ 的最小值点存在的情况。但有些时候，如 $X$ 是无界集时，该条件就不能得到保证。故在实际应用中，往往会人为地给出 $X$ 的界，使得 $X$ 成为一个紧集（在欧式空间中就是有界闭集）。由 $W e i r e s t r a s s$ 的理论，定义在有界闭集上的函数必可取到最小值。

定理 2

任意由切平面方法生成的点列 ${x_k\}$ 的极限点都是一个最优解 $x^*$ 。

证明：

设 $g_j$ 是函数 $f$ 在 $x_j$ 点的次梯度，由此我们有：
$f(x_j)+(x-x_j)^Tg_j\leqslant f(x),\quad \forall x\in X,$
根据 $F_k(x)$ 和 $x_k$ 的定义，我们有：
$f(x_j)+(x_k-x_j)^Tg_j\leqslant F_{k-1}(x_k)\leqslant F_{k-1}(x)\leqslant f(x),\quad \forall x\in X，j<k.$
由于 $X$ 有界，因此 ${x_k\}$ 也有界。由于有界数列必有收敛子列，不妨取 ${x_k\}$ 的一个子列为 $\{x_k\}_{\Kappa}$ ，它收敛到 $\overline{x}$ ，由于 $X$ 是闭集，因此 $\overline{x}\in X$ ，由不等式 $(5)$ ，我们有：
$f(x_j)+(x_k-x_j)^Tg_j\leqslant F_{k-1}(x_k)\leqslant F_{k-1}(\overline{x})\leqslant f(\overline{x}),\quad \forall k，j<k.$
由于对任何数列，上极限一定存在。对 $(6)$ 式，我们取上极限：
$\lim_{j\rightarrow \infin,k\rightarrow\infin,j<k,j\in \Kappa,k\in \Kappa} \sup\{f(x_j)+(x_k-x_j)^{T}g_j\}\leqslant\lim _{k\rightarrow\infin,k\in \Kappa}\sup F_{k-1}(x_k)\leqslant f(\overline{x})$
又由于 $\{x_k\}_{\Kappa}$ 是有界的，由课本定理3.1.2，有界闭集上凸函数的次微分是有界的，因此 $\{g_j\}_{\Kappa}$ 是有界的。注意到，我们有：
$\lim_{j\rightarrow \infin,k\rightarrow\infin,j<k,j\in \Kappa,k\in \Kappa} \{x_k-x_j\}=0$
于是：
$\lim_{j\rightarrow \infin,k\rightarrow\infin,j<k,j\in \Kappa,k\in \Kappa} \{x_k-x_j\}^Tg_j=0$
另一方面，由于 $x_j$ 收敛到 $\overline{x}$ ， $f$ 为定义在 $X$ 上的连续函数，故：
$f(x_j)\longrightarrow f(\overline{x}),\quad (x_j\rightarrow \overline{x})$
综合 $(7), (9), (10)$ 式，由夹逼原理，我们有：
$\lim_{k\rightarrow\infin,k\in \Kappa}\sup F_{k-1}(x_k)=f(\overline{x}).$
由 $(5)$ 式最后一个不等号和 $(11)$ 式，我们有：
$f(\overline{x})\leqslant f(x),\quad \forall x\in X,$
$(12)$ 式说明了 $\overline{x}$ 是一个最优解，由 $\overline{x}$ 的任意性，定理得证。Q.E.D.

在实际应用中，由于迭代的次数可能为无穷多次，因此大多数情况下我们都会使用以下不等式来近似最优解 $f^*$ ：
$F_{k-1}(x_k)\leqslant f^*\leqslant \min_{j\leqslant k} f(x_j),\quad k=0,1,2,...$
在这里插入图片描述

对于可接受的误差 $\epsilon$ ，当 $|F_{k-1}(x_k)-\min_{j\leqslant k} f(x_j)|<\epsilon$ 时，停止迭代。

另一种比较特殊的目标函数为：
$f(x)=\max_{i\in I}\{a_i^Tx+b_i\}$
其中， $I$ 是有限的指标集， $a_i$ 为给定的指标， $b_i$ 为标量。

对于这种形式的函数，切平面方法的迭代次数是有限的（以下将证明这一点），因此该方法迭代停止的条件为 $F_{k-1}(x_k)=f(x_k)$ 。

定理 3

上述多面体函数经过切平面方法迭代有限次后，必能达到最优解 $x^*$ 。

证明：

若数对 $a_{i_k},b_{i_k})=(a_{i_j},b_{i_j})$ ，其中 $j < k$ ，则有：
$f(x_k)=a_{i_k}^Tx_k+b_{i_k}=a^{T}_{i_j}x_k+b_{i_j}\leqslant F_{k-1}(x_k)\leqslant f(x_k)$
其中，第一个不等号是由于 $a^{T}_{i_j}x_k+b_{i_j}$ 相当于定义函数 $F_{k-1}$ 的一个超平面（详见(2)式），第二个不等号是根据: $F_{k-1}(x)\leqslant f(x),\quad \forall x\in X\quad$ 这一事实。此时我们得到了等式 $F_{k-1}(x_k)=f(x_k)$ ，说明迭代已经终止。由于数对 $(a_i,b_i),\quad i\in I\quad I$ 是有限集合，因此该迭代步骤必须是有限次的。Q.E.D.

注意到，切平面方法虽然简单，但是有以下缺点：

迭代数值不稳定。
需要时刻关注切平面的选取。
算法的收敛速度通常很慢。

4.2 部分切平面方法

考虑下面形式的函数：
$f (x) + c (x)$
其中， $f (x)$ 是定义在 $R$ 上的凸函数， $c (x)$ 是一个容易优化的函数（如二次函数）。和之前的讨论类似，我们考虑优化问题：
$\min\quad F_k(x)+c(x)\\subject \quad to\quad x\in X$
迭代算法：
$F_k(x)=\max\{f(x_0)+(x-x_0)^Tg_0,...,f(x_k)+(x-x_k)^Tg_k\}\\x_{k+1}\in \arg\min_{x\in X}\{F_k(x)+c(x)\}$
该算法的收敛性质和之前的讨论完全类似，该算法可以推广到多个函数的情形。

4.3 线性约束的情况

考虑约束集是一个多面体：
$X=\{x|c_i^Tx+d_i\leqslant 0,\quad i\in I\}$
令：
$p(x)=\max_{i\in I}\{c_i^Tx+d_i\}$
考虑优化问题：
$\max f(x)\\subject\quad to \quad p(x)\leqslant0$
优化算法：
$F_k(x)=\min\{f(x_0)+(x-x_0)^Tg_0,...,f(x_k)+(x-x_k)^Tg_k\}\\p_k(x)=\max_{i\in I_k}\{c_i^Tx+d_i\}\\x_{k+1}\in \arg\max_{p_k(x)\leqslant 0} F_k(x)$
$I_k$ 的迭代过程如下：