ADMM原理及应用

xy_optics

已于 2025-01-20 18:10:47 修改

阅读量1.7k

点赞数 18

分类专栏： optimization Algorithm 文章标签：算法 optimization

于 2025-01-08 16:30:50 首次发布

本文链接：https://blog.csdn.net/xy_optics/article/details/145012191

版权

文章目录

1. ADMM原理
2. ADMM应用
附录1. Cholesky 分解
附录2. 基追踪里 $x$ 更新
附录3. Woodbury 恒等式（Sherman–Morrison–Woodbury 公式）
参考文献

1. ADMM原理

1.1. 数学形式

我们要解的优化问题长这样：
$\min_{x \in \mathbf{R}^n,\; z \in \mathbf{R}^m} \quad f(x) + g(z) \quad\text{subject to}\quad A x + B z = c.$
这意味着我们想同时让 $f (x)$ 和 $g (z)$ 尽可能小，但它们又要满足一个线性约束 $A x + B z = c$ 。

$x$ 和 $z$ 分别是不同的变量，
$f$ 和 $g$ 都是凸函数（这保证了算法更容易收敛），
$A$ 和 $B$ 是已知的矩阵，
$c$ 是已知的常量。

为什么要分成 $x$ 和 $z$ 两组变量？通常是因为 $f$ 和 $g$ 可能各自有特殊结构，例如一个是稀疏正则项（ $L_1$ 范数），另一个可能是平方和之类的简单函数。要是把它们混在一起难以统一求解，就可以“拆开”来做。

1.2. 传统“乘子法”和它的不足

在最经典的拉格朗日乘子法里，我们会先把约束放进一个“增强过”的目标函数里，称为“增广拉格朗日函数”（augmented Lagrangian），它一般长这样：
$L_\rho(x, z, y) = f(x) + g(z) + y^T(Ax + Bz - c) + \frac{\rho}{2}\|Ax + Bz - c\|_2^2,$
其中 $y$ 是所谓的“对偶变量”或者“拉格朗日乘子”， $\rho>0$ 是个参数（它决定惩罚力度）。

在传统乘子法里，每次迭代要同时对 $x$ 和 $z$ 都做一个“联合最小化”（joint minimization）：
$(x^{k+1}, z^{k+1}) = \arg\min_{x,z} \; L_\rho(x, z,\, y^k),$
然后再更新对偶变量
$y^{k+1} = y^k + \rho\bigl(Ax^{k+1} + Bz^{k+1} - c\bigr).$
这样做当然可以，但如果 $f$ 和 $g$ 的形式比较复杂，或者维度较大，那这个“联合最小化”就不好算（可能很耗时，或者甚至求不出来）。

1.3. ADMM 的核心思想：分步做

ADMM（Alternating Direction Method of Multipliers，“交替方向乘子法”）最主要的特色就是不再让 $x$ 和 $z$ 同时做大的联合求解，而是“先算 $x$ ，再算 $z$ ”的交替方式。它的三步更新如下：

$x$ -更新：固定住旧的 $z^k$ 和 $y^k$ ，只对 $x$ 做一个最优更新：
$x^{k+1} = \arg\min_x \; L_\rho(x,\; z^k,\; y^k).$
由于 $z^k、y^k$ 不变，这一步就是在一个比较“简化了”的函数里找最优 $x$ 。
$z$ -更新：拿到更新后的 $x^{k+1}$ ，再固定它和 $y^k$ ，对 $z$ 做最优更新：
$z^{k+1} = \arg\min_z \; L_\rho\bigl(x^{k+1},\; z,\; y^k\bigr).$
对偶变量 $y$ 更新：有了新的 $x^{k+1}$ 和 $z^{k+1}$ ，再更新对偶变量 $y$ ：
$y^{k+1} = y^k + \rho\bigl(Ax^{k+1} + Bz^{k+1} - c\bigr).$

这样一来，每一步都只是对一个变量做最小化，问题规模往往更小，如果 $f (x)$ 和 $g (z)$ 还是那种可以分开处理的“友好”函数，求解起来也更容易、更快。

1.4. Scaled Form of ADMM

在 Scaled Form 里，我们把对偶变量 换一种等价的表示。为了方便，我们先定义一个所谓的残差（residual）：
$r = A x + B z - c .$
同时，定义“缩放后的对偶变量”（scaled dual variable） $u$ ：
$\frac{1}{\rho}y.$
这样，原先的项 $y^T r + \frac{\rho}{2}\|r\|^2$ 可以用 $u$ 来重写成
$\underbrace{(\rho/2)\|\,r + u\,\|^2_2}_\text{重新打包} \;-\; \underbrace{(\rho/2)\|u\|^2_2}_\text{校正}.$
这个结论的得来类似于高中学到的凑平方项。

“用 $\tfrac{1}{\rho}y$ 替换后，线性和二次项可以组合到一个“ $\frac{\rho}{2}\|r + u\|^2$ ”形式里，看起来更整洁。”

在这个新的记号下，ADMM 的迭代过程可以写成（省去常数项）：

$x$ -更新：
$x^{k+1} = \arg\min_x \Bigl(f(x) \;+\; \frac{\rho}{2}\,\bigl\|\;Ax \;+\; Bz^k \;-\; c \;+\; u^k\bigr\|_2^2\Bigr).$
$z$ -更新：
$z^{k+1} = \arg\min_z \Bigl(g(z) \;+\; \frac{\rho}{2}\,\bigl\|\;A x^{k+1} \;+\; Bz \;-\; c \;+\; u^k\bigr\|_2^2\Bigr).$
$u$ -更新：
$u^{k+1} = u^k \;+\; \bigl(Ax^{k+1} + Bz^{k+1} - c\bigr).$

你会发现，现在对偶更新变得很简单，直接是对旧的 $u$ 加上“残差” $r = A x + B z - c$ 。而在 unscaled form 里则是
$y^{k+1} = y^k + \rho\,r^k. \quad\Longleftrightarrow\quad u^{k+1} = u^k + r^k, \quad\text{因为 }u=\tfrac{1}{\rho}y.$
也就是说，两个形式做的事情完全一样，只是在对偶变量上做一个因子 $\tfrac{1}{\rho}$ 的缩放。

1.5. 迭代过程中主要检查的两大残差

两个残差（residual）：

主（primal）残差
$r^{k+1} \;=\; A\,x^{k+1} \;+\; B\,z^{k+1} \;-\; c.$
这是用来度量“原约束 $A x + B z = c$ ”在迭代第 $k + 1$ 步时的偏差。若 $r^{k+1}$ 越接近 0，说明越接近可行。
对偶（dual）残差
$s^{k+1} \;=\; \rho\,A^T\,B\,(z^{k+1} - z^k).$
这是用来度量对偶可行性。若 $s^{k+1}$ 越接近 0，说明越接近对偶可行。

在 ADMM 中，你会看到在每次迭代完 $x^{k+1}, z^{k+1}$ 后，会“顺手”计算这两个残差，用来判断收敛程度。

1.6. 怎么设置停止准则(Stopping Criteria)？

一个常见且实用的做法就是直接对主残差和对偶残差设置阈值：
$\|r^k\|_2 \;\le\; \varepsilon_{\text{pri}} \quad\text{and}\quad \|s^k\|_2 \;\le\; \varepsilon_{\text{dual}},$

$\varepsilon_{\text{pri}} > 0$ （主可行性余量）
$\varepsilon_{\text{dual}} > 0$ （对偶可行性余量）

只要这两个残差都小于各自阈值，就认定收敛。

但是，上述设置也会存在如下问题：

如果问题中 $\|c\|$ 、 $A x^k\|$ 、 $B z^k\|$ 值很大，仅仅用一个小绝对值判断误差会显得“吹毛求疵”，或者数值上不稳定；
如果问题中变量本身特别小，仅用相对误差也可能不够；

所以可以采用下面一个典型设置：
$\varepsilon_{\text{pri}} =\sqrt{p}\,\varepsilon_{\text{abs}} \;+\; \varepsilon_{\text{rel}}\, \max\,\{\,\|A x^k\|_2,\;\|B z^k\|_2,\;\|c\|_2\},\\ \varepsilon_{\text{dual}} =\sqrt{n}\,\varepsilon_{\text{abs}} \;+\; \varepsilon_{\text{rel}}\, \|A^T y^k\|_2,$