对偶方法（Dual Methods）

最新推荐文章于 2024-10-12 19:58:36 发布

JimmyCM

最新推荐文章于 2024-10-12 19:58:36 发布

阅读量5.2k

点赞数 3

分类专栏：凸优化及其应用数学理论

本文链接：https://blog.csdn.net/zbwgycm/article/details/115343260

版权

数学理论同时被 2 个专栏收录

13 篇文章

订阅专栏

凸优化及其应用

11 篇文章

订阅专栏

总目录

一、凸优化基础（Convex Optimization basics）

凸优化基础（Convex Optimization basics）

二、一阶梯度方法（First-order methods）

三、对偶

Introduction

前一节我们介绍了对偶的应用以及共轭函数的性质。利用这些性质，我们本节讨论基于对偶的方法。

对偶梯度法

即使我们不能推导出闭合形式的对偶或共轭，我们依然可以使用基于对偶的次梯度法或梯度法（Dual gradient methods）。
比如考虑以下问题
$\min_xf(x)\quad subject\ to\ Ax=b$

其对偶问题为
$max_u -f^*(-A^Tu)-b^Tu$

其中 $f^*$ 是 $f$ 的共轭。定义 $g(u)=-f^*(-A^Tu)-b^Tu$ ，则
$\partial g(u)=A\partial f^*(-A^Tu)-b$

因而，根据共轭的性质，我们可以得到
$\partial g(u)=Ax-b\quad {\rm where}\quad x\in\arg\min_z f(z)+u^TAz$

对偶次梯度法（dual subgradient method）（最大化对偶目标函数）从一个初始的对偶变量 $u^{(0)}$ 开始，并对于 $k = 1, 2, 3, . . .$ 次迭代重复
$x^{(k)}\in \arg\min_x f(x)+(u^{(k-1)})^TAx$ $u^{(k)}=u^{(k-1)}+t_k(Ax^{(k)}-b)$

步长 $t_k$ 可采用标准梯度方法选择。

当 $f$ 是严格凸函数，那么 $f^*$ 是可微的，因而该方法变为对偶梯度上升（dual gradient ascent），对于 $k = 1, 2, 3, . . .$ ，重复迭代
$x^{(k)}= \arg\min_x f(x)+(u^{(k-1)})^TAx$ $u^{(k)}=u^{(k-1)}+t_k(Ax^{(k)}-b)$

此时每次迭代的 $x^{(k)}$ 都是唯一的。同样地，近端梯度方法及其加速方法都可以像通常的那样应用。

收敛分析

Lipschitz梯度和强凸性

假设 $f$ 是闭合的凸函数，那么 $f$ 关于参数 $d$ 强凸等价于 $\nabla f^*$ 关于参数 $1 / d$ 满足Lipschitz连续条件。

收敛保证

给定上述结论，我们可以得到对偶次梯度法的收敛率

如果 $f$ 是关于参数 $d$ 强凸的，那么使用固定步长 $t_k=d$ 的对偶梯度上升方法的收敛率为 $O(1/\epsilon)$ 。
如果 $f$ 是关于参数 $d$ 强凸的，且 $\nabla f$ 是关于参数 $L$ Lipschitz连续的，那么使用固定步长 $t_k=2/(1/d+1/L)$ 的对偶梯度上升方法的收敛率为 $O(log(1/\epsilon))$ 。

对偶分解

等式约束

考虑如下问题
$\min_x\sum^B_{i=1}f_i(x_i)\quad subject\ to\ Ax=b$

其中 $x=(x_1,...,x_B)\in R^n$ 分为 $B$ 组变量，每个变量 $x_i \in R^{n_i}$ 。我们可以以此分割 $A$
$A=[A_1,...,A_B], \quad {\rm where} \quad A_i\in R^{m\times n_i}$

在计算梯度时，我们可以将其分割分解为 $B$ 个分离的问题：
$x^+\in \arg\min_x\sum^B_{i=1}f_i(x_i)+u^TAx$ $\Longleftrightarrow x^+_i\in \arg\min_{x_i}f_i(x_i)+u^TA_ix_i,\quad i=1,...,B$

对偶分解算法：对于 $k = 1, 2, 3, . . .$ ，重复迭代
$x_i^{(k)}\in \arg\min_{x_i} f_i(x_i)+(u^{(k-1)})^TA_ix_i,\quad i=1,...,B$ $u^{(k)}=u^{(k-1)}+t_k(\sum^B_{i=1}A_ix_i^{(k)}-b)$

可以将这两个步骤描述为：

广播（Broadcast）：将 $u$ 发送给 $B$ 个处理器，B个处理器并行优化找到各自的 $x_i$ ；
聚集（Gather）：从每个处理器收集 $A_ix_i$ ，然后更新全局对偶变量 $u$ ；

在这里插入图片描述

不等式约束

考虑如下问题
$\min_x\sum^B_{i=1}f_i(x_i)\quad subject\ to\ \sum^B_{i=1}A_ix_i\leq b$

对偶分解算法（投影次梯度法）：对于 $k = 1, 2, 3, . . .$ ，重复迭代
$x_i^{(k)}\in \arg\min_{x_i} f_i(x_i)+(u^{(k-1)})^TA_ix_i,\quad i=1,...,B$ $u^{(k)}=(u^{(k-1)}+t_k(\sum^B_{i=1}A_ix_i^{(k)}-b))_+$

其中 $u_+$ 表示 $u$ 的正部分，即 $(u_+)i=\max\{0,u_i\},\quad i=1,...,m$ 。

增广拉格朗日方法（乘子法）

对偶上升法的缺点在于其要求较强的约束条件来保证收敛。使用增广拉格朗日方法（Augmented Lagrangian method）（也称为乘子法，method of multipliers）可以对其做改进。我们将原问题变为：
$\begin{aligned} \min_{x}f(x)+\frac{\rho}{2}\|Ax-b\|^2_2\\ subject\ to\quad Ax=b\\ \end{aligned}$

其中 $\rho>0$ 是一个参数。该形式明显等价于原问题，且当 $A$ 是满列秩时目标函数是强凸的。使用对偶梯度上升：对于 $k = 1, 2, 3, . . .$ ，重复迭代
$x^{(k)}= \arg\min_x f(x)+(u^{(k-1)})^TAx+\frac{\rho}{2}\|Ax-b\|^2_2$ $u^{(k)}=u^{(k-1)}+\rho(Ax^{(k)}-b)$

注意到步长选择变为了 $t_k=\rho,\quad k=1,2,3,...$ 。这是因为，既然 $x^{(k)}$ 最小化 $f(x)+(u^{(k-1)})^TAx+\frac{\rho}{2}\|Ax-b\|^2_2$ ，那么
$\begin{aligned} 0&\in \partial f(x^{(k)})+A^T(u^{(k-1)}+\rho(Ax^{(k)}-b))\\ &=\partial f(x^{(k)})+A^Tu^{(k)} \end{aligned}$