交替方向乘子法（Alternating Direction Method of Multipliers）

最新推荐文章于 2025-03-14 17:57:51 发布

JimmyCM

最新推荐文章于 2025-03-14 17:57:51 发布

阅读量8.2k

点赞数 7

分类专栏：凸优化及其应用数学理论

本文链接：https://blog.csdn.net/zbwgycm/article/details/115349606

版权

数学理论同时被 2 个专栏收录

13 篇文章

订阅专栏

凸优化及其应用

11 篇文章

订阅专栏

总目录

一、凸优化基础（Convex Optimization basics）

凸优化基础（Convex Optimization basics）

二、一阶梯度方法（First-order methods）

三、对偶

Introduction

上一节我们介绍了对偶梯度上升法和增广拉格朗日方法（也叫作乘子法）。在最后我们提到，对偶梯度上升法虽然可以做变量分解，但是需要较强的约束条件保证收敛；而对于乘子法而言，虽然有较好的收敛性，但是却失去了可分解性。那么有没有一种方法可以兼具两种特性呢？那就是本节要介绍的交替方向乘子法（Alternating Direction Method of Multipliers，ADMM）。

交替方向乘子法

考虑如下形式的问题
$\begin{aligned} \min_{x,z}f(x)+g(z)\\ subject\ to\quad Ax+Bz=c\\ \end{aligned}$

由乘子法可得
$\begin{aligned} \min_{x,z}f(x)+g(z)+\frac{\rho}{2}\|Ax+Bz-c\|^2_2\\ subject\ to\quad Ax+Bz=c\\ \end{aligned}$

其中参数 $\rho >0$ 。我们定义增广拉格朗日形式为
$L_\rho(x,z,u)=f(x)+g(z)+u^T(Ax+Bz-c)+\frac{\rho}{2}\|Ax+Bz-c\|^2_2$

对于 $k = 1, 2, 3, . . .$ ，ADMM重复迭代
$x^{(k)}= \arg\min_x L_{\rho}(x,z^{(k-1)},u^{(k-1)})$ $z^{(k)}= \arg\min_z L_{\rho}(x^{(k)},z,u^{(k-1)})$ $u^{(k)}=u^{(k-1)}+\rho(Ax^{(k)}+Bz^{(k)}-c)$

收敛性保证

在对 $f$ 和 $g$ 适当的假设下（不要求 $A$ 和 $B$ 是满秩的），ADMM迭代满足，对于任意 $\rho>0$ ：

残差收敛（Residual convergence）： $r^{(k)}=Ax^{(k)}+Bz^{(k)}-c\to 0$ ；
目标收敛（Objective convergence）： $f(x^{(k)})+g(z^{(k)})\to f^*+g^*$ ，其中 $f^*+g^*$ 是原问题的最优目标值；
对偶收敛（Dual convergence）： $u^{(k)}\to u^*$ ，其中 $u^*$ 是对偶问题的解

收敛率一般是未知的。粗略来说，ADMM的收敛率与一阶方法相似或者更快一点。

缩放形式的ADMM

将对偶变量 $u$ 替换为一个缩放变量 $w=u/\rho$ ，原始ADMM步骤可以变为：
$x^{(k)}= \arg\min_x f(x)+\frac{\rho}{2}\|Ax+Bz^{(k-1)}-c+w^{(k-1)}\|^2_2$ $z^{(k)}= \arg\min_zg(z)+\frac{\rho}{2}\|Ax^{(k)}+Bz-c+w^{(k-1)}\|^2_2$ $w^{(k)}=w^{(k-1)}+Ax^{(k)}+Bz^{(k)}-c$

在这种形式下，第 $k$ 次迭代的 $w^{(k)}$ 可以通过运行过程中积累的残差和计算出：
$w^{(k)}=w^{(0)}+\sum^k_{i=1}(Ax^{(i)}+Bz^{(i)}-c)$

ADMM与近端运算（proximal operators）的联系

回忆前面介绍过的近端投影法，近端算子定义为
$prox_{h,t}(x)=\arg\min_z\frac{1}{2t}\|z-x\|^2_2+h(z)$

我们可以将ADMM表示为近端运算。考虑如下问题
$\min_xf(x+g(x)) \Longleftrightarrow \min_{x,z}f(x)+g(z)\quad subject\ to\quad x=z$

ADMM的步骤可变为
$x^{(k)}=\arg\min_x f(x)+\frac{\rho}{2}\|x-z^{(k-1)}+w^{(k-1)}\|^2_2= prox_{f,1/\rho}(z^{(k-1)}-w^{(k-1)})$ $z^{(k)}= \arg\min_z g(z)+\frac{\rho}{2}\|x^{(k)}-z+w^{(k-1)}\|^2_2=prox_{g,1/\rho}(x^{(k)}+w^{(k-1)})$ $w^{(k)}=w^{(k-1)}+x^{(k)}-z^{(k)}$

例子：lasso回归（lasso regression）
回忆lasso问题
$\min_{\beta}\frac{1}{2}\|y-X\beta\|^2_2+\lambda\|\beta\|_1$

我们可以将其重写为
$\min_{\beta,\alpha}\frac{1}{2}\|y-X\beta\|^2_2+\lambda\|\alpha\|_1 \quad subject\ to\quad \beta-\alpha=0$

ADMM可以给出简单的算法：
$\beta^{(k)}=(X^TX+\rho I)^{-1}(X^Ty+\rho(\alpha^{(k-1)}-w^{(k-1)}))$ $\alpha^{(k)}=S_{\lambda/\rho}(\beta^{(k)}+w^{(k-1)})$ $w^{(k)}=w^{(k-1)}+\beta^{(k)}-\alpha^{(k)}$

可以注意到：

对任意 $X$ ，矩阵 $X^TX+\rho I$ 总是可逆的
如果我们能在 $O(p^3)$ 的开销内计算因式分解，那么每次 $\beta$ 更新都花费 $O(p^2)$ 的开销
$\alpha$ 更新通过软阈值算子 $S_t$
ADMM的步骤几乎就是在岭回归（ridge regression）的基础上迭代计算软阈值

下图展示了不同方法在计算lasso回归问题上的比较。ADMM与近端梯度法（PG）有着相似收敛速度，加速的近端梯度法（APG）会收敛更快一点并伴随着波动。坐标下降法（CD）由于使用了更多关于问题的信息因而会比其他方法快很多，但其缺点是并不总是适用的。
在这里插入图片描述

ADMM的实际应用

在实际应用中，ADMM通常可以在少量的迭代后就可以达到一个相对准确的解，但是如果想要得到一个高精度的解往往需要大量的迭代。

$\rho$ 的选择会极大地影响ADMM在实际中的收敛。

$\rho$ 太大 $\to$ 收敛快但难以保证精度
$\rho$ 太小 $\to$ 运行速度慢，迭代次数多

Boyed等人提出了可以一种自适应变化 $\rho$ 的策略，即在每次迭代中通过检查原问题残差和对偶残差来判断离目标值的距离，从而调整 $\rho$ 。虽然方法是有效的，但其并不能保证收敛。

正如生成对偶问题一样，将一个问题转换为ADMM可处理的形式往往不是唯一的。

例子：稀疏与低秩分解
给定 $M\in \mathcal{R}^{m\times n}$ ，考虑稀疏和低秩分解（sparse plus low rank decomposition）问题：
$\begin{aligned} \min_{L,S} \|L\|_{tr}+\lambda \|S\|_1\\ subject\ to\quad L+S=M\\ \end{aligned}$

ADMM步骤为：
$L^{(k)}=S^{tr}_{1/\rho}(M-S^{(k-1)}+W^{(k-1)})$ $S^{(k)}=S^{l_1}_{\lambda/\rho}(M-L^{(k)}+W^{(k-1)})$ $W^{(k)}=W^{(k-1)}+M-L^{(k)}-S^{(k)}$

其中 $S^{tr}_{1/\rho}$ 表示矩阵软阈值算子， $S^{l_1}_{1/\rho}$ 表示元素软阈值算子。
下图展示了稀疏与低秩分解在监控视频中的应用。对于一个监控摄像头的许多视频帧，我们可以将每一帧分解为低秩部分（low-rank part），其代表着所有帧之间共有的部分（如静止的背景），和稀疏部分(sparse part)，其代表着当前帧的特性（如运动的目标）。

在这里插入图片描述