有约束优化方法

Shilong Wang

已于 2022-11-09 09:38:20 修改

阅读量153

点赞数

分类专栏：最优化文章标签：算法线性代数矩阵

于 2022-08-08 19:14:51 首次发布

本文链接：https://blog.csdn.net/wsl_longwudi/article/details/126234220

版权

最优化专栏收录该内容

5 篇文章 0 订阅

订阅专栏

对偶问题

拉格朗日函数
$L\left( x,u,v\right)=f\left( x\right) +u^{T}g\left( x\right) +v^{T}h\left( x\right) \ ,u\geq 0$
拉格朗日对偶函数
$\begin{array}{l}\theta \left( u,v\right) =\inf\limits_x L\left( x,u,v\right) =\inf\limits_{x}\left( f\left( x\right) +u^{T}g\left( x\right) +v^{T}h\left( x\right) \right)\ ,u\geq 0 \end{array}$
对偶问题的最优值给出了原问题最优值的一个下界,并且对于某些凸规划问题(满足强对偶定理条件)，可以通过求解对偶问题得到原问题的最优解

弱对偶定理

弱对偶定理: 对于任意的 $u, v$ ,拉格朗日对偶函数给出了原优化问题最优值的一个下界，拉格朗日对偶问题的最优值给出了原问题最优值的最好下界。

令 $\tilde{x}$ 是原问题的可行解，即
$\begin{array}{l} \forall \tilde{x}\in \{x|x\in X,g(x) \leqslant 0,h\left( x\right) =0\}\\ L\left( \tilde{x},u,v\right) =f\left( \tilde{x}\right) +u^{T}g\left( \tilde{x}\right) +v^{T}h\left( \tilde{x}\right) \leqslant f\left( \tilde{x}\right) \\ \theta \left( u,v\right) =\inf\limits_{x}L\left( x,u,v\right) \leqslant L\left( \tilde{x},u,v\right) \leqslant f\left( \tilde{x}\right) \end{array}$
由 $\tilde{x}$ 的任意性可得 $\theta(u,v)\leqslant f(x^*)$ ， $x^*$ 为原问题的最优解。

强对偶定理

强对偶定理: 在目标函数 $f (x)$ 与不等式约束条件 $g (x)$ 为凸函数,等式约束条件 $h (x)$ 为仿射函数时，且在可行域内存在一点 $\hat{x}$ 使不等式约束严格成立 $g(\hat{x})<0$ ，则原问题与对偶问题的最优值相同。
$\inf\{f(x):x\in X,g(x)\leqslant 0,h(x)=0\}=\sup\{\theta(u,v):u\geqslant 0\}$
且如果下确界是有限值，则在 $(\bar{u}\geqslant 0,\bar{v})$ 点达到 $\sup\{\theta(u,v):u\geqslant 0\}$

如果下确界在 $\bar{x}$ 点达到，则 $\bar{u}^T g(\bar{x})=0$

强对偶定理说明对偶间隙为0，从对偶问题得到的原问题的最优下界是紧的，对偶问题的最优值即是原问题最优值

约束最优化方法

可行方向法

问题P： $\min f(x),g(x)\leqslant 0$ ,设其可行域为 $X$ ,给定可行点 $x_k$ ,为求其极小点，则应在点 $x_k$ 处的可行下降方向中选取方向 $d_k$ ,然后采用线搜索求步长，产生新的迭代点
$\begin{cases}x_{k+1}=x_{k}+\lambda _{k}d_{k}\\ f\left( x_{k+1}\right) <f\left( x_{k}\right) \end{cases}$
然后判断新点是否满足精度要求，满足，则停止；不满足，则继续迭代或者迭代次数超过预定次数也停止

增广拉格朗日法

增广拉格朗日法的解是原问题的解

原问题
$\begin{array}{c} \min f\left( x\right) \\ s. t.\ c\left( x\right) =0 \end{array}$
其KKT点
$\begin{array}{l} \\L_{1}\left( x ,\lambda \right) =f\left( x\right) +\lambda ^{T}c\left( x\right) \\ \nabla _{x}L_{1}\left( x^{\ast }_1,\lambda ^{\ast }_1\right) =\nabla f\left( x ^{\ast }_1\right) +A\left( x ^{\ast }_1\right) \lambda^{\ast }_1=0 & (1)\\ 其中A\left( x\right) =\begin{bmatrix} \nabla c_{1}\left( x\right) &\ldots &\nabla c_{m}\left( x\right) \end{bmatrix} \end{array}$
增广拉格朗日函数对应的问题：
$\begin{array}{c}\min f\left( x\right) +\dfrac{\sigma }{2}\left\| c\left( x\right) \right\| _{2}^{2}\\ s. t.\ c\left( x\right) =0 \end{array}$
其KKT点
$\begin{array}{l} L_{2}\left( x,\lambda \right) =f\left( x\right) +\dfrac{\sigma }{2}c^{T}\left( x\right) c\left( x\right) +\lambda ^{T}c\left( x\right) \\ \nabla _{x} L_{2}\left( x^{\ast }_2,\lambda ^{\ast }_2\right) =\nabla f\left( x ^{\ast }_2\right) +A\left( x^{\ast}_2\right) \lambda ^{\ast }_2+\sigma A\left( x^{\ast }_2\right) c\left( x^{\ast }_2\right) \\= \nabla f\left( x ^{\ast }_2\right) +A\left( x^{\ast}_2\right) \left(\lambda ^{\ast }_2+\sigma c\left( x^{\ast }_2\right)\right)=0&(2)\end{array}$
因为对于可行点 $c(x^*)=0$ ，故两个问题的KKT条件相同，比较上下式可得
$\begin{cases} x_1^*=x_2^*\\ \lambda_1^*=\lambda_2^* \end{cases}$
比较(1)式和(2)式得 $\lambda^*=\lambda_k+\sigma_kc(x^k)$
$\begin{array}{l} x^{k+1}=\arg \min\limits_x L_{2}\left( x,\lambda ^{k}\right) \\ \lambda ^{k+1}=\lambda ^{k}+\sigma c\left( x^{k+1}\right) \end{array}$

ADMM法

经典的ADMM法适用于求解N-Block的凸优化问题

以2-Block为例
$\begin{array}{c} \min f\left( x\right)+g(z) \\ s. t.\ A x+Bz =c \end{array}$
Block指我们可以将决策域分块，分成两组变量，对于每组变量分别求最优，不断迭代下降。这样就将一个大规模求解问题分解为多个小规模问题分别求解，这样的性质使得ADMM算法容易进行并行计算。
$x^{k+1}=\arg\min_x L(x,z^k,y^k)\\ z^{k+1}=\arg\min_zL(x^{k+1},z,y^k)\\ y^{k+1}=y^k+\rho(Ax^{k+1}+Bz^{k+1}-c)$