凸优化中的对偶（Duality in General Programs）

最新推荐文章于 2024-05-18 13:07:18 发布

JimmyCM

最新推荐文章于 2024-05-18 13:07:18 发布

阅读量3k

点赞数 2

分类专栏：凸优化及其应用数学理论

本文链接：https://blog.csdn.net/zbwgycm/article/details/104752762

版权

数学理论同时被 2 个专栏收录

13 篇文章 28 订阅

订阅专栏

凸优化及其应用

11 篇文章 39 订阅

订阅专栏

总目录

一、凸优化基础（Convex Optimization basics）

凸优化基础（Convex Optimization basics）

二、一阶梯度方法（First-order methods）

三、对偶

Intorduction

在上节中，我们讨论了线性规划中的对偶，引入了对偶的基本概念和对偶的两种解释。对偶相当于给当前的优化问题找到了一个下界，通过提升这个下界来找到原问题的最优解。本节将进一步介绍对偶在一般规划问题中的推广。

拉格朗日对偶函数

考虑一般的最小化问题：
$\begin{aligned} \min_{x}\quad &f(x)\\ {\rm subject\ to}\quad &h_i(x)\leq 0,\ i=1,...,m\\ &l_i(x)=0,\ j=1,...,r \end{aligned}$

这里不需要一定是凸函数，当然我们主要研究凸函数的情况。我们定义拉格朗日方程（Lagrangian）为:
$L(x,u,v)=f(x)+\sum^m_{i=1}u_ih_i(x)+\sum^r_{j=1}v_il_i(x)$

新变量 $u\in R^m, v\in R^r$ ，且 $u\geq 0$ 。其一个重要的特性是，对于所有可行点 $x$ ，
$f(x)\geq L(x,u,v)$

正如上节所示，如果 $C$ 表示原问题的可行域， $f^*$ 表示原问题的最优解，那么对于任意 $u$ 和 $v\geq 0$ ，
$f^*\geq \min_{x\in C}L(x,u,v)\geq \min_x L(x,u,v):=g(u,v)$

我们称 $g (u, v)$ 为拉格朗日对偶函数（Lagrange dual function）。它给出了 $f^*$ 的一个下限。其中， $u\geq 0$ 和 $v$ 称之为对偶变量。

例子：二次规划
考虑二次规划问题:：
$\begin{aligned} \min_{x}\quad &\frac{1}{2}x^TQx+c^Tx\\ {\rm subject\ to}\quad &Ax=b,\ x\geq 0 \end{aligned}$

其中， $Q\succ 0$ 。拉格朗日方程为：
$L(x,u,v)=\frac{1}{2}x^TQx+c^Tx-u^Tx+v^T(Ax-b)$

拉格朗日对偶函数为：
$g(u,v)=\min_x L(x,u,v)=-\frac{1}{2}(c-u+A^Tv)^TQ^{-1}(c-u+A^Tv)-b^Tv$

对于任意 $u\geq 0$ 和 $v$ ， $g (u, v)$ 作为下界约束着原函数最优解 $f^*$ 的取值。

拉格朗日对偶问题

已知对于任意 $u\geq 0$ 和 $v$ ， $f^*\geq g(u,v)$ 。因此最好的下界是：在 $u, v$ 可行域上最大化 $g (u, v)$ 。这就得到了拉格朗日对偶问题（Lagrange dual problem）：
$\begin{aligned} \max_{u,v}\quad &g(u,v)\\ {\rm subject\ to}\quad &u\geq 0 \end{aligned}$

一个关键的性质称为弱对偶（weak duality）：如果对偶最优解为 $g^*$ ，那么 $f^*\geq g^*$ 。
另一个关键性质是：对偶问题总是凸优化问题。
无论原问题是不是凸的，这两个性质总是成立的。

强对偶

弱对偶告诉我们 $f^*\geq g^*$ 总是成立的。而在一些问题中，我们可以得到 $f^*=g^*$ ，该性质称之为强对偶。

Slater条件

Slater’s condition: 如果原问题是凸优化问题（即 $f$ 和 $h_1,...,h_m$ 是凸函数， $l_1,...,l_r$ 是放射函数），那么至少存在一个严格可行点 $x\in R^n$ ，即
$h_1(x)<0,...,h_m(x)<0$ 且 $l_1(x)=0,...,l_r(x)=0$ 满足强对偶。

可以验证的是，对于线性规划问题，LP对偶的对偶就是原LP问题。且LP问题总是有强对偶性。

例子：支持向量机
给定 $y\in \{-1,1\}^n$ ， $X\in R^{n\times p}$ 有行向量 $x_1,...,x_n$ ，则支持向量机(SVM)定义为：
$\begin{aligned} \min_{\beta,\beta_0,\xi}\quad &\frac{1}{2}\|\beta\|^2_2+C\sum^n_{i=1}\xi_i\\ {\rm subject\ to}\quad & \xi_i\geq 0,\ i=1,...,n\\ &y_i(x_i^T\beta + \beta_0) \geq1-\xi_i,\ i=1,...,n \end{aligned}$

引入对偶变量 $v,w\geq 0$ ，可以得到拉格朗日方程：
$L(\beta, \beta_0, \xi, v, w)=\frac{1}{2}\|\beta\|^2+C\sum^n_{i=1}\xi_i-\sum^n_{i=1}v_i\xi_i+\sum^n_{i=1}w_i(1-\xi_i-y_i(x^T_i\beta + \beta_0))$

则拉格朗日对偶函数为：
$\min_{\beta,\beta_0,\xi}L = g(v,w)=\left\{ \begin{aligned} &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw &{\rm if}\ w=C1-v,\ w^Ty=0\\ &-\infty &otherwise \end{aligned} \right.$

其中， $\tilde{X}={\rm diag}(y)X$ 。因此，SVM的对偶问题消除了松弛变量 $v$ ：
$\begin{aligned} \max_{w}\quad &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw\\ {\rm subject\ to}\quad &0\leq w\leq C1,\ w^Ty=0 \end{aligned}$

可以看到，Slater条件是满足的，因而SVM是有强对偶性的。

对偶间隙

给定原变量 $x$ 和对偶变量 $u, v$ ，则 $f (x) - g (u, v)$ 称为对偶间隙（duality gap）。注意到 $f(x)-f^*\leq f(x)-g(u,v)$ ，所以当对偶间隙为0时， $x$ 就是原问题的最优解（同时， $u, v$ 也是对偶问题的最优解）。
从算法角度来看，只要给定一个停止阈值： $f(x)-g(u,v)\leq \epsilon$ ，那么就可以保证 $f(x)-f^*\leq \epsilon$ 。

JimmyCM

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
凸优化中的对偶（Duality in General Programs）

Intorduction在上节中，我们讨论了线性规划中的对偶，引入了对偶的基本概念和对偶的两种解释。对偶相当于给当前的优化问题找到了一个下界，通过提升这个下界来找到原问题的最优解。本节将进一步介绍对偶在一般规划问题中的推广。拉格朗日对偶函数考虑一般的最小化问题：min⁡xf(x)subject tohi(x)≤0, i=1,...,mli(x)=0, j=1,...
复制链接

扫一扫

专栏目录