最优化学习笔记：交替方向乘子法（3）

最新推荐文章于 2024-07-18 21:11:52 发布

C-ccc

最新推荐文章于 2024-07-18 21:11:52 发布

阅读量875

点赞数 21

分类专栏：最优化文章标签：学习笔记 python 算法

本文链接：https://blog.csdn.net/weixin_66626616/article/details/140098948

版权

最优化专栏收录该内容

12 篇文章 0 订阅

订阅专栏

8.6 交替方向乘子法（续2）

8.6.5 收敛性分析

本节主要讨论交替方向乘子法 (8.6.5)—(8.6.7) 在问题 (8.6.1) 上的收敛性．在此之前我们先引入一些必要的假设．

假设 8.3 (1) $f_1(x)，f_2(x)$ 均为闭凸函数，且每个 ADMM 迭代子问题存在唯一解；
$\qquad\quad$ (2) 原始问题 (8.6.1) 的解集非空，且 Slater 条件满足．

假设 8.3 给出的条件是很基本的， $f_1$ 和 $f_2$ 的凸性保证了要求解的问题是凸问题，每个子问题存在唯一解是为了保证迭代的良定义；而在 Slater 条件满足的情况下，原始问题的 KKT 对和最优解是对应的，因此可以很方便地使用 KKT 条件来讨论收敛性．
由于原始问题解集非空，不妨设 $x_1^*,x_2^*,y^*)$ 是 KKT 对，即满足条件 (8.6.8)
$-A_1^\mathrm{T}y^*\in\partial f_1(x_1^*),\quad-A_2^\mathrm{T}y^*\in\partial f_2(x_2^*),\quad A_1x_1^*+A_2x_2^*=b.$

我们最终的目的是证明 ADMM 迭代序列 ${(x_1^k,x_2^k,y^k)\}$ 收敛到原始问题的一个 KKT 对，因此引入如下记号来表示当前迭代点和 KKT 对的误差：
$(e_1^k,e_2^k,e_y^k)\stackrel{\text{def}}{=}(x_1^k,x_2^k,y^k)-(x_1^*,x_2^*,y^*)$

我们进一步引入如下辅助变量来简化之后的证明：
$\begin{aligned}&u^{k}=-A_{1}{}^{\mathrm{T}}[y^{k}+(1-\tau)\rho(A_{1}e_{1}^{k}+A_{2}e_{2}^{k})+\rho A_{2}(x_{2}^{k-1}-x_{2}^{k})]\\ &v^{k}=-A_{2}{}^{\mathrm{T}}[y^{k}+(1-\tau)\rho(A_{1}e_{1}^{k}+A_{2}e_{2}^{k})]\\ &\Psi_{k}=\frac{1}{\tau\rho}\|e_{y}^{k}\|^{2}+\rho\|A_{2}e_{2}^{k}\|^{2}\\&\Phi_{k}=\Psi_{k}+\max\:(1-\tau,1-\tau^{-1})\rho\|A_{1}e_{1}^{k}+A_{2}e_{2}^{k}\|^{2}\end{aligned}\qquad(8.6.39)$

在这些记号的基础上，我们有如下结果：

引理 8.7 假设 ${(x_1^k,x_2^k,y^k)\}$ 为交替方向乘子法产生一个迭代序列, 那么，对任意的 $k\geqslant 1$ 有
$\begin{aligned}&u^k\in\partial f_1(x_1^k),\ v^k\in\partial f_2(x_2^k)\qquad(8.6.40) \\\Phi_{k}-\Phi_{k+1}&\geqslant\min(\tau,1+\tau-\tau^{2})\rho\|A_{2}(x_{2}^{k}-x_{2}^{k+1})\|^{2}+\min(1,1+\tau^{-1}-\tau)\rho\|A_{1}e_{1}^{k+1}+A_{2}e_{2}^{k+1}\|^{2}\qquad(8.6.41)\end{aligned}$
证明
先证明 (8.6.40) 式的两个结论．根据交替方向乘子法的迭代过程，对 $x_1^{k+1}$ 我们有
$0\in\partial f_1(x_1^{k+1})+A_1^\mathrm{T}y^k+\rho A_1^\mathrm{T}(A_1x_1^{k+1}+A_2x_2^k-b)$

将 $y^k=y^{k+1}-\tau\rho(A_1x_1^{k+1}+A_2x_2^{k+1}-b)$ 代入上式，消去 $y^k$ 就有
$-A_{1}^{\mathrm{T}}\Big(y^{k+1}+(1-\tau)\rho(A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b)+\rho A_{2}(x_{2}^{k}-x_{2}^{k+1})\Big)\in\partial f_{1}(x_{1}^{k+1})$

根据 $u^k$ 的定义自然有 $u^k\in\partial f_1(x_1^k)$ (注意代回 $b=A_1x_1^*+A_2x_2^*$ ).
类似地，对 $x_2^{k+1}$ 我们有
$0\in\partial f_2(x_2^{k+1})+A_2^\mathrm{T}y^k+\rho A_2^\mathrm{T}(A_1x_1^{k+1}+A_2x_2^{k+1}-b)$

同样利用 $y^k$ 的表达式消去 $y^k$ , 得到
$-A_2^\mathrm{T}\Big(y^{k+1}+(1-\tau)\rho(A_1x_1^{k+1}+A_2x_2^{k+1}-b)\Big)\in\partial f_2(x_2^{k+1})$

根据 $v^k$ 的定义自然有 $v^k\in\partial f_2(x_2^k)$ .
接下来证明不等式 (8.6.41). 首先根据 $x_1^*,x_2^*,y^*)$ 的最优性条件以及关系式 (8.6.40),
$u^{k+1}\in\partial f_{1}(x_{1}^{k+1}),\quad-A_{1}^{\mathrm{T}}y^{*}\in\partial f_{1}(x_{1}^{*}),\\v^{k+1}\in\partial f_{2}(x_{2}^{k+1}),\quad-A_{2}^{\mathrm{T}}y^{*}\in\partial f_{2}(x_{2}^{*}).$

根据凸函数的单调性，
$\left\langle u^{k+1}+A_{1}^{\mathrm{T}}y^{*},x_{1}^{k+1}-x_{1}^{*}\right\rangle\geqslant 0 \\\left\langle v^{k+1}+A_{2}^{\mathrm{T}}y^{*},x_{2}^{k+1}-x_{2}^{*}\right\rangle\geqslant 0$

将上述两个不等式相加，结合 $u^{k+1},v^{k+1}$ 的定义，并注意到恒等式
$A_1x_1^{k+1}+A_2x_2^{k+1}-b=(\tau\rho)^{-1}(y^{k+1}-y^k)=(\tau\rho)^{-1}(e_y^{k+1}-e_y^k)\qquad(8.6.42)$

$\begin{aligned}&\left\langle u^{k+1}+A_{1}^{\mathrm{T}}y^{*},x_{1}^{k+1}-x_{1}^{*}\right\rangle+\left\langle v^{k+1}+A_{2}^{\mathrm{T}}y^{*},x_{2}^{k+1}-x_{2}^{*}\right\rangle\\=&\left\langle -A_{1}{}^{\mathrm{T}}[y^{k+1}+(1-\tau)\rho(A_{1}e_{1}^{k+1}+A_{2}e_{2}^{k+1})+\rho A_{2}(x_{2}^{k}-x_{2}^{k+1})]+A_{1}^{\mathrm{T}}y^{*},x_{1}^{k+1}-x_{1}^{*}\right\rangle+\left\langle -A_{2}{}^{\mathrm{T}}[y^{k+1}+(1-\tau)\rho(A_{1}e_{1}^{k+1}+A_{2}e_{2}^{k+1})]+A_{2}^{\mathrm{T}}y^{*},x_{2}^{k+1}-x_{2}^{*}\right\rangle\\=&\left\langle-A_1^{\mathrm{T}}e_y^{k+1},x_{1}^{k+1}-x_{1}^{*}\right\rangle+\left\langle -A_{1}{}^{\mathrm{T}}[(1-\tau)\rho(A_{1}e_{1}^{k+1}+A_{2}e_{2}^{k+1})],x_{1}^{k+1}-x_{1}^{*}\right\rangle\\+&\left\langle-A_2^{\mathrm{T}}e_y^{k+1},x_{2}^{k+1}-x_{2}^{*}\right\rangle+\left\langle -A_{2}{}^{\mathrm{T}}[(1-\tau)\rho(A_{1}e_{1}^{k+1}+A_{2}e_{2}^{k+1})],x_{2}^{k+1}-x_{2}^{*}\right\rangle+\left\langle -A_{1}{}^{\mathrm{T}}[\rho A_{2}(x_{2}^{k}-x_{2}^{k+1})],x_{1}^{k+1}-x_{1}^{*}\right\rangle\\=&\left\langle-A_1^{\mathrm{T}}e_y^{k+1},x_{1}^{k+1}-x_{1}^{*}\right\rangle+\left\langle-A_2^{\mathrm{T}}e_y^{k+1},x_{2}^{k+1}-x_{2}^{*}\right\rangle\\+&\left\langle -A_{1}{}^{\mathrm{T}}[(1-\tau)\rho(A_1x_1^{k+1}+A_2x_2^{k+1}-b)],x_{1}^{k+1}-x_{1}^{*}\right\rangle+\left\langle -A_{2}{}^{\mathrm{T}}[(1-\tau)\rho(A_1x_1^{k+1}+A_2x_2^{k+1}-b)],x_{2}^{k+1}-x_{2}^{*}\right\rangle+\left\langle -A_{1}{}^{\mathrm{T}}[\rho A_{2}(x_{2}^{k}-x_{2}^{k+1})],x_{1}^{k+1}-x_{1}^{*}\right\rangle\\=&\frac{1}{\tau\rho}\left\langle e_{y}^{k+1},e_{y}^{k}-e_{y}^{k+1}\right\rangle-(1-\tau)\rho\|A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b\|^{2}\\+&\left\langle -A_{1}{}^{\mathrm{T}}[\rho A_{2}(x_{2}^{k}-x_{2}^{k+1})],x_{1}^{k+1}-x_{1}^{*}\right\rangle\end{aligned}$

最后可以得到
$\begin{aligned}&\frac{1}{\tau\rho}\left\langle e_{y}^{k+1},e_{y}^{k}-e_{y}^{k+1}\right\rangle-(1-\tau)\rho\|A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b\|^{2} \\&+\rho\left\langle A_{2}(x_{2}^{k+1}-x_{2}^{k}),A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b\right\rangle \\&-\rho\left\langle A_{2}(x_{2}^{k+1}-x_{2}^{k}),A_{2}e_{2}^{k+1}\right\rangle\geqslant 0\end{aligned}\qquad(8.6.43)$

不等式 (8.6.43) 的形式和不等式 (8.6.41) 还有一定差异，主要的差别就在
$\rho\left\langle A_2(x_2^{k+1}-x_2^k),A_1x_1^{k+1}+A_2x_2^{k+1}-b\right\rangle$

这一项上. 接下来估计这一项的上界. 为了方便，引入新符号
$\begin{aligned}\nu^{k+1}&=y^{k+1}+(1-\tau)\rho(A_1x_1^{k+1}+A_2x_2^{k+1}-b) \\M^{k+1}&=(1-\tau)\rho\left\langle A_2(x_2^{k+1}-x_2^k),A_1x_1^k+A_2x_2^k-b\right\rangle\end{aligned}$

则 $-A_2^\mathrm{T}\nu^{k+1}\in\partial f_2(x_2^{k+1})$ 以及 $-A_2^\mathrm{T}\nu^k\in\partial f_2(x_2^k)$ . 再利用单调性知
$\left\langle-A_2^\mathrm{T}(\nu^{k+1}-\nu^k),x_2^{k+1}-x_2^k\right\rangle\geqslant 0\qquad(8.6.44)$

根据这些不等式关系我们最终得到
$\begin{aligned}&\rho\left\langle A_{2}(x_{2}^{k+1}-x_{2}^{k}),A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b\right\rangle \\=&(1-\tau)\rho\left\langle A_{2}(x_{2}^{k+1}-x_{2}^{k}),A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b\right\rangle+\left\langle A_{2}(x_{2}^{k+1}-x_{2}^{k}),y^{k+1}-y^{k}\right\rangle \\=&M^{k+1}+\left\langle\nu^{k+1}-\nu^{k},A_{2}(x_{2}^{k+1}-x_{2}^{k})\right\rangle\\\leqslant&M^{k+1}\end{aligned}$
估计完这一项之后，不等式 (8.6.43) 可以放缩成
$\begin{gathered} \frac{1}{\tau\rho}\left\langle e_{y}^{k+1},e_{y}^{k}-e_{y}^{k+1}\right\rangle-(1-\tau)\rho\|A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b\|^{2}+M^{k+1}-\rho\left\langle A_{2}(x_{2}^{k+1}-x_{2}^{k}),A_{2}e_{2}^{k+1}\right\rangle\geqslant 0\end{gathered}$

上式中含有内积项，利用恒等式
$\langle a,b\rangle=\frac{1}{2}(\|a\|^2+\|b\|^2-\|a-b\|^2)=\frac{1}{2}(\|a+b\|^2-\|a\|^2-\|b\|^2)$

进一步得到
$\begin{aligned}&\frac{1}{\tau\rho}(\|e_{y}^{k}\|^{2}-\|e_{y}^{k+1}\|^{2})-(2-\tau)\rho\|A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b\|^{2}\\&+2M^{k+1}-\rho\|A_{2}(x_{2}^{k+1}-x_{2}^{k})\|^{2}-\rho\|A_{2}e_{2}^{k+1}\|^{2}+\rho\|A_{2}e_{2}^{k}\|^{2}\geqslant 0\end{aligned}\qquad(8.6.45)$

此时除了 $M^{k+1}$ 中的项，(8.6.45) 中的其他项均在不等式 (8.6.41) 中出现. 由于 $M^{k+1}$ 的符号和 $\tau$ 的取法有关，下面我们针对 $\tau$ 的两种取法进行讨论.
情形一 $\tau\in(0,1]$ , 此时 $M^{k+1}\geqslant 0$ , 根据基本不等式，
$2\left\langle A_2(x_2^{k+1}-x_2^k),A_1x_1^k+A_2x_2^k-b\right\rangle\leqslant\|A_{2}(x_{2}^{k+1}-x_{2}^{k})\|^{2}+\|A_{1}x_{1}^{k}+A_{2}x_{2}^{k}-b\|^{2}$

代入不等式 (8.6.45) 得到
$\begin{aligned}&\frac{1}{\tau\rho}\|e_{y}^{k}\|^{2}+\rho\|A_{2}e_{2}^{k}\|^{2}+(1-\tau)\rho\|A_{1}e_{1}^{k}+A_{2}e_{2}^{k}\|^{2}\left[\frac{1}{\tau\rho}\|e_{y}^{k+1}\|^{2}+\rho\|A_{2}e_{2}^{k+1}\|^{2}+(1-\tau)\rho\|A_{1}e_{1}^{k+1}+A_{2}e_{2}^{k+1}\|^{2}\right]\\&\geqslant\rho\|A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b\|^{2}+\tau\rho\|A_{2}(x_{2}^{k+1}-x_{2}^{k})\|^{2}\end{aligned}\qquad(8.6.46)$

情形二 $\tau>1$ , 此时 $M^{k+1}<0$ , 根据基本不等式，
$-2\left\langle A_{2}(x_{2}^{k+1}-x_{2}^{k}),A_{1}x_{1}^{k}+A_{2}x_{2}^{k}-b\right\rangle\leqslant\tau\|A_{2}(x_{2}^{k+1}-x_{2}^{k})\|^{2}+\frac{1}{\tau}\|A_{1}x_{1}^{k}+A_{2}x_{2}^{k}-b\|^{2}$

同样代入不等式 (8.6.45) 可以得到
$\begin{aligned}&\frac{1}{\tau\rho}\|e_{y}^{k}\|^{2}+\rho\|A_{2}e_{2}^{k}\|^{2}+\left(1-\frac{1}{\tau}\right)\rho\|A_{1}e_{1}^{k}+A_{2}e_{2}^{k}\|^{2}-\left[\frac{1}{\tau\rho}\|e_{y}^{k+1}\|^{2}+\rho\|A_{2}e_{2}^{k+1}\|^{2}+\left(1-\frac{1}{\tau}\right)\rho\|A_{1}e_{1}^{k+1}+A_{2}e_{2}^{k+1}\|^{2}\right]\\&\geqslant\left(1+\frac{1}{\tau}-\tau\right)\rho\|A_{1}x_{1}^{k+1}+A_{2}x_{2}^{k+1}-b\|^{2}+(1+\tau-\tau^{2})\rho\|A_{2}(x_{2}^{k+1}-x_{2}^{k})\|^{2}\end{aligned}\qquad(8.6.47)$

整合(8.6.46)式和(8.6.47)式即可得到不等式 (8.6.41). 注意，只有当 $\tau\in\left(0,\dfrac{1+\sqrt{5}}{2}\right)$ 时，(8.6.41) 式中不等号右侧的项才为非负.

引理 8.7 中 (8.6.40) 式直接利用了每个子问题的最优性条件以及 KKT 条件，不等式 (8.6.41) 的直观解释是迭代点误差的某种度量 $\Phi_k$ 是单调有界的.

定理 8.16 在假设 8.3 的条件下，进一步假定 $A_1,A_2$ 列满秩. 如果 $\tau\in\left(0,\dfrac{1+\sqrt{5}}{2}\right)$ , 则序列 $\left\{(x_{1}^{k},x_{2}^{k},y^{k})\right\}$ 收敛到原始问题的一个 KKT 对.

证明
引理 8.7 表明 $\Phi_k$ 是有界列，根据 $\Phi_k$ 的定义(8.6.39), 我们有：
$\Phi_k=\Psi_k+\max(1-\tau,1-\tau^{-1})\rho\|A_1e_1^k+A_2e_2^k\|^2$

由于 $\Phi_k$ 是有界的，所以 $\Psi_k$ 也是有界的。再根据 $\Psi_k$ 的定义：
$\Psi_k=\frac{1}{\tau\rho}\|e_y^k\|^2+\rho\|A_2e_2^k\|^2$

可知
$\|e_y^k\|,\quad\|A_2e_2^k\|,\quad\|A_1e_1^k+A_2e_2^k\|$

均有界. 根据不等式
$\|A_1e_1^k\|\leqslant\|A_1e_1^k+A_2e_2^k\|+\|A_2e_2^k\|$

可以进一步推出 ${\|A_1e_1^k\|\}$ 也是有界序列. 注意到 $A_1^\mathrm{T}A_1\succ 0,A_2^\mathrm{T}A_2\succ 0$ , 因此以上有界性也等价于 ${(x_1^k,x_2^k,y^k)\}$ 是有界序列.
另一个直接结果就是无穷级数
$\sum\limits_{k=0}^{\infty}\|A_{1}e_{1}^{k}+A_{2}e_{2}^{k}\|^{2},\quad \sum\limits_{k=0}^{\infty}\|A_{2}(x_{2}^{k+1}-x_{2}^{k})\|^{2}$

都是收敛的，这表明
$\begin{aligned}\|A_1e_1^k+A_2e_2^k\|=\|A_1x_1^k+A_2x_2^k-b\|\to 0\\\|A_2(x_2^{k+1}-x_2^k)\|\to 0\end{aligned}\qquad(8.6.48)$

下面推导收敛性.
首先证明迭代点子列的收敛性. 由于 ${(x_1^k,x_2^k,y^k)\}$ 是有界序列，因此它存在一个收敛子列，设
$(x_1^{k_j},x_2^{k_j},y^{k_j})\to(x_1^\infty,x_2^\infty,y^\infty)$

利用 (8.6.39) 式中的 $u^k$ 和 $v^k$ 的定义以及 (8.6.48) 式，有：
$\begin{aligned}&u^{k+1}=-A_1^\mathrm{T}\left[y^{k+1}+(1-\tau)\rho(A_1e_1^{k+1}+A_2e_2^{k+1})+\rho A_2(x_2^k-x_2^{k+1})\right]\\&v^{k+1}=-A_2^\mathrm{T}\left[y^{k+1}+(1-\tau)\rho(A_1e_1^{k+1}+A_2e_2^{k+1})\right]\end{aligned}$

当 $k\to\infty$ 时，由于 $\|A_2(x_2^{k+1}-x_2^k)\|\to 0$ , 以及 $\|A_1e_1^k+A_2e_2^k\|\to 0$ , 可得 ${u^k\}$ 与 ${v^k\}$ 相应的子列也收敛：
$u^{\infty}\stackrel{\mathrm{def}}{=}\lim_{j\to\infty}u^{k_{j}}=-A_{1}^{\mathrm{T}}y^{\infty},\quad v^{\infty}=\lim_{j\to\infty}v^{k_{j}}=-A_{2}^{\mathrm{T}}y^{\infty}\qquad(8.6.49)$

从 (8.6.40) 式可知对于任意的 $k\geqslant 1$ , 有 $u^k\in\partial f_1(x_1^k), v^k\in\partial f_2(x_2^k)$ . 利用定理 2.19 中次梯度映射的图像是闭集可知
$-A_1y^\infty\in\partial f_1(x_1^\infty),\quad-A_2y^\infty\in\partial f_2(x_2^\infty)$

由 (8.6.48) 的第一式可知
$\lim\limits_{j\to\infty}\|A_1x_1^{k_j}+A_2x_2^{k_j}-b\|=\|A_1x_1^{\infty}+A_2x_2^{\infty}-b\|=0$

这表明 $(x_1^\infty,x_2^\infty,y^\infty)$ 是原始问题的一个 KKT 对. 因此上述分析中的 $x_1^*,x_2^*,y^*)$ 均可替换为 $(x_1^\infty,x_2^\infty,y^\infty)$ .
为了说明 ${(x_1^k,x_2^k,y^k)\}$ 全序列的收敛性，我们注意到 $\Phi_k$ 是单调下降的，且对子列 $\left\{\Phi_{k_j}\right\}$ 有
$\begin{aligned}&\lim_{j\to\infty}\Phi_{k_{j}}\\=&\lim\limits_{j\to\infty}\left(\frac{1}{\tau\rho}\|e_{y}^{k_{j}}\|^{2}+\rho\|A_{2}e_{2}^{k_{j}}\|^{2}+\max\:\left\{1-\tau,1-\frac{1}{\tau}\right\}\rho\|A_{1}e_{1}^{k_{j}}+A_{2}e_{2}^{k_{j}}\|^{2}\right)\\=&0\end{aligned}$

由于单调序列的子列收敛等价于全序列收敛，因此 $\lim\limits_{k\to\infty}\Phi_k=0$ , 从而可以立即得到
$\begin{aligned}&0\leqslant\limsup_{k\to\infty}\frac{1}{\tau\rho}\|e_{y}^{k}\|^{2}\leqslant\limsup_{k\to\infty}\Phi_{k}=0\\&0\leqslant\limsup_{k\to\infty}\rho\|A_{2}e_{2}^{k}\|^{2}\leqslant\limsup_{k\to\infty}\Phi_{k}=0\\&0\leqslant\limsup_{k\to\infty}\left\{\max\:\{1-\tau,1-\frac{1}{\tau}\}\rho\|A_{1}e_{1}^{k}+A_{2}e_{2}^{k}\|^{2}\right\}\leqslant\limsup_{k\to\infty}\Phi_{k}=0\end{aligned}$

这说明
$\|e_y^k\|\to 0,\quad\|A_2e_2^k\|\to 0,\quad\|A_1e_1^k+A_2e_2^k\|\to 0,$

进一步有
$0\leqslant\limsup\limits_{k\to\infty}\|A_1e_1^k\|\leqslant\lim\limits_{k\to\infty}\left(\|A_2e_2^k\|+\|A_1e_1^k+A_2e_2^k\|\right)=0$

注意到 $A_1^\mathrm{T}A_1\succ 0,A_2^\mathrm{T}A_2\succ 0$ , 所以最终我们得到全序列收敛：
$(x_1^k,x_2^k,y^k)\to(x_1^\infty,x_2^\infty,y^\infty)$