关于ADMM算法中迭代优化的一种简化形式

小学二年级扛把子

于 2024-06-08 17:41:37 发布

阅读量858

点赞数 19

文章标签：算法人工智能机器学习

本文链接：https://blog.csdn.net/weixin_46193079/article/details/139547017

版权

关于ADMM算法中迭代优化的一种简化形式

一. 优化问题描述

求解这样一个具有等式约束的稀疏优化问题，其中矩阵 $A\in\mathcal{R}^{m\times n}$ 和 $B\in\mathcal{R}^{m\times r}$ 是已知的，矩阵 $X\in\mathcal{R}^{n\times r}$ 和 $Y\in\mathcal{R}^{m\times r}$ 是需要优化的：
$\begin{align} \min_{X,Y}& \ \Vert Y \Vert_1\\\nonumber \mathrm{s.t.}& \ AX-Y=B \end{align}$

二. 常用的迭代步骤

优化问题 (1) 的拉格朗日函数可以写为
$\begin{align} L(X,Y) = \Vert Y \Vert_1 + <\Gamma,AX-Y-B> + \frac{\mu}{2}\Vert AX-Y-B \Vert_F \end{align}$
其中， $\Gamma\in\mathcal{R}^{m\times r}$ 是拉格朗日乘子.

迭代步骤
更新 $X$ :
$\begin{align}\nonumber X^{k+1} &= \argmin_{X} <\Gamma,AX-Y-B> + \frac{\mu}{2}\Vert AX-Y-B \Vert_F\\ &= \argmin_{X} \frac{\mu}{2}\Vert AX-Y-B + \Gamma/\mu\Vert_F\\ \end{align}$
则 $X$ 的更新规则为：
$\begin{align} X^{k+1} = (A^TA)^{-1}A^T(Y^k+B-\Gamma^k/\mu). \end{align}$

更新 $Y$ :
$\begin{align}\nonumber Y^{k+1} &= \argmin_{Y} \Vert Y \Vert_1 + <\Gamma,AX-Y-B> + \frac{\mu}{2}\Vert AX-Y-B \Vert_F\\ & = \argmin_{Y} \Vert Y \Vert_1 + \frac{\mu}{2}\Vert AX-Y-B + \Gamma/\mu\Vert_F \end{align}$
则 $Y$ 的更新规则为：
$\begin{align} Y^{k+1} = \mathrm{soft}\left(AX^{k+1}-B+\Gamma^k/\mu,\frac{1}{\mu}\right). \end{align}$
其中， $\mathrm{soft}(\cdot)$ 为软阈值函数.

更新 $\Gamma$ :
$\begin{align} \Gamma^{k+1} = \Gamma^{k} + \mu(AX^{k+1}-Y^{k+1}-B). \end{align}$

三. 简化的迭代步骤

优化问题 (1) 的拉格朗日函数直接简化写为
$\begin{align} L(X,Y) = \Vert Y \Vert_1 + \frac{\mu}{2}\Vert AX-Y-B + \Lambda\Vert_F \end{align}$
其中， $\Lambda\in\mathcal{R}^{m\times r}$ 是拉格朗日乘子. 事实上，这两种写法是等价的，并且这里有 $\Lambda = \Gamma/\mu$ . 下面将给出分析过程。

迭代步骤
更新 $X$ :
$\begin{align}\nonumber X^{k+1} &= \argmin_{X} \frac{\mu}{2}\Vert AX-Y-B + \Lambda\Vert_F\\ &= \argmin_{X} \frac{\mu}{2}\Vert AX-Y-B \Vert_F + <\Gamma,AX-Y-B> \end{align}$
其中， $\Lambda = \Gamma/\mu$ .
这里为了更清晰，简单推导了一下：
$\begin{align}\nonumber &\quad\ \frac{\mu}{2}\Vert AX-Y-B + \Gamma/\mu\Vert_F \\\nonumber &= \frac{\mu}{2}\mathrm{trace}[( AX-Y-B + \Gamma/\mu)^T( AX-Y-B + \Gamma/\mu)]\\\nonumber &= \frac{\mu}{2}\mathrm{trace}[( AX-Y-B)^T( AX-Y-B+ \Gamma/\mu)] + \frac{\mu}{2}\mathrm{trace}[(\Gamma^T/\mu)( AX-Y-B+ \Gamma/\mu)]\\\nonumber &= \frac{\mu}{2}\mathrm{trace}[( AX-Y-B)^T( AX-Y-B)] + \mu\mathrm{trace}[(\Gamma^T/\mu)( AX-Y-B+ \Gamma/\mu)]\\\nonumber &= \frac{\mu}{2}\Vert AX-Y-B \Vert_F + \mathrm{trace}[(\Gamma^T)( AX-Y-B+ \Gamma/\mu)]\\\nonumber &= \frac{\mu}{2}\Vert AX-Y-B \Vert_F + <\Gamma,AX-Y-B> + \mathrm{trace}[(\Gamma^T)\Gamma/\mu] \end{align}$
由于是关于 $X$ 的优化，忽略上式与 $X$ 无关的一项即可.
则 $X$ 的更新规则为：
$\begin{align} X^{k+1} = (A^TA)^{-1}A^T(Y^k+B-\Lambda^k). \end{align}$