最优化学习笔记：对偶算法

C-ccc

已于 2024-07-02 14:39:28 修改

阅读量1k

点赞数 8

分类专栏：最优化文章标签：算法 python

于 2024-06-18 18:16:12 首次发布

本文链接：https://blog.csdn.net/weixin_66626616/article/details/139780554

版权

8.5 对偶算法（1）

对于复合优化问题，许多实际问题的原始问题有时候比较难以处理，这时候可以考虑它的对偶问题．本节将讲解两种算法：一种是把前面提到的算法应用到对偶问题上，例如对偶近似点梯度法；另一种是同时把原始问题和对偶问题结合起来考虑，例如原始–对偶混合梯度类的算法.
为了方便起见，这一节主要考虑如下形式的问题：
$(\text{P})\quad\min\limits_{x\in\mathbb{R}^n}\quad\psi(x)=f(x)+h(Ax)\qquad(8.5.1)$

其中 $f, h$ 都是闭凸函数， $A\in\mathbb{R}^{m\times n}$ 为实数矩阵. 通过引入约束 $y = A x$ , 可以写出与问题 (8.5.1) 等价的约束优化问题：
$\begin{aligned}\min&\quad f(x)+h(y)\\\mathrm{s.t.}&\quad y=Ax\end{aligned}\qquad(8.5.2)$

对约束 $y = A x$ 引入乘子 $z$ , 得到拉格朗日函数
$\begin{aligned}L(x,y,z)&=f(x)+h(y)-z^{\mathrm{T}}(y-Ax)\\&=\big(f(x)+(A^{\mathrm{T}}z)^{\mathrm{T}}x\big)+\big(h(y)-z^{\mathrm{T}}y\big).\end{aligned}$

利用共轭函数的定义 (2.6.1), 可计算拉格朗日对偶问题为
$\mathrm{(D)}\quad\max_z\quad\phi(z)=-f^*(-A^\mathrm{T}z)-h^*(z)\qquad(8.5.3)$

定义 2.19 (共轭函数) 任一适当函数 $f$ 的共轭函数定义为 $f^*(y)=\sup\limits_{x\in\textbf{dom}f}\{y^\text{T}x-f(x)\}\quad(2.6.1)$ .

8.5.1 对偶近似点梯度法

本小节我们将近似点梯度算法应用到对偶问题上，得到对偶近似点梯度法，还将讨论与其等价的、针对原始问题设计的算法.
对偶问题 (8.5.3) 是无约束的复合优化形式，因此可以考虑近似点梯度算法. 要在对偶问题上使用近似点梯度法，要求对偶问题的目标函数 $\phi(z)$ 满足 “可微函数+凸函数” 的复合形式.
如果假设原始问题中 $f (x)$ 是闭的强凸函数 (强凸参数为 $\mu$ ), 下面的引理说明其共轭函数是定义在全空间 $\mathbb{R}^n$ 上的梯度利普希茨连续函数：

引理 8.5 (强凸函数共轭函数的性质) 设 $f (x)$ 是适当且闭的强凸函数，其强凸参数为 $\mu>0, f^*(y)$ 是 $f (x)$ 的共轭函数，则 $f^*(y)$ 在全空间 $\mathbb{R}^n$ 上有定义，且 $f^*(y)$ 是梯度 $\displaystyle\frac{1}{\mu}$ -利普希茨连续的可微函数.

证明：
对任意的 $y\in\mathbb{R}^n$ , 函数 $f(x)-x^\mathrm{T}y$ 是强凸函数，因此对任意的 $y\in\mathbb{R}^n$ , 存在唯一的 $x\in\mathbf{dom}f$ , 使得 $f^*(y)=x^\text{T}y-f(x)$ . 根据凸优化问题的一阶最优性条件可知
$y\in\partial f(x)\Leftrightarrow f^*(y)=x^\mathrm{T}y-f(x)$

由于 $f (x)$ 是闭凸函数，由定理 2.15 可知 $f (x)$ 的二次共轭为其本身，于是对同一组 $x, y$ 有
$x^\mathrm{T}y-f^*(y)=f(x)=f^{**}(x)=\sup_{y}\left\{x^\mathrm{T}y-f^*(y)\right\}$

这说明 $y$ 也使得 $x^\mathrm{T}y-f^*(y)$ 取到最大值. 根据一阶最优性条件， $x\in\partial f^*(y)$ .
再根据 $x$ 的唯一性容易推出 $\partial f^*(y)$ 中只含一个元素，故 $f^*(y)$ 可微.
下证 $f^*(y)$ 为梯度 $\displaystyle\frac{1}{\mu}$ -利普希茨连续的. 对任意的 $y_1,y_2$ , 存在唯一的 $x_1,x_2\in\mathbf{dom} f$ 使得
$y_1\in\partial f(x_1),\quad y_2\in\partial f(x_2).$

根据次梯度性质以及 $f(x)-\displaystyle\frac{\mu}{2}\|x\|^2$ 是凸函数，
$\begin{aligned}f(x_2)-\frac{\mu}{2}\|x_2\|^2&\geqslant f(x_1)-\frac{\mu}{2}\|x_1\|^2+(y_1-\mu x_1)^\mathrm{T}(x_2-x_1),\\f(x_1)-\frac{\mu}{2}\|x_1\|^2&\geqslant f(x_2)-\frac{\mu}{2}\|x_2\|^2+(y_2-\mu x_2)^\mathrm{T}(x_1-x_2),\end{aligned}$

将上述两式相加得
$(y_1-y_2)^\mathrm{T}(x_1-x_2)\geqslant\mu\|x_1-x_2\|^2.$
根据 $x$ 和 $y$ 的关系我们有 $x_1=\nabla f^*(y_1),x_2=\nabla f^*(y_2)$ , 代入上式可得
$(y_1-y_2)^\mathrm{T}(\nabla f^*(y_1)-\nabla f^*(y_2))\geqslant\mu\|\nabla f^*(y_1)-\nabla f^*(y_2)\|^2.$

这正是 $\nabla f^*(y)$ 的余强制性，根据引理 6.1 可知 $\nabla f^*(y)$ 是 $\displaystyle\frac{1}{\mu}$ -利普希茨连续的.

经过上面的推导，我们知道 $\nabla f^*$ 是利普希茨连续函数，因此在对偶问题 (8.5.3) 中 $f^*(-A^{\mathrm{T}}z)$ 是梯度 $\displaystyle\frac{1}{\mu}\|A\|_{2}^{2}$ -利普希茨连续的函数，这是因为对于任意的 $z_1,z_2$ , 有
$\begin{aligned}\|A\nabla f^{*}(-A^{\mathrm{T}}z_{1})-A\nabla f^{*}(-A^{\mathrm{T}}z_{2})\|&\leqslant\frac{1}{\mu}\|A\|_{2}\|A^{\mathrm{T}}(z_{1}-z_{2})\|\leqslant\frac{\|A\|_{2}^{2}}{\mu}\|z_{1}-z_{2}\|\end{aligned}$