约束优化问题的最优性条件（KKT条件）

暗夜的幕布

已于 2023-03-15 13:20:54 修改

阅读量5.5k

点赞数 5

分类专栏：最优化方法文章标签：线性规划 lambda 数学建模线性代数机器学习

于 2020-06-15 23:58:27 首次发布

本文链接：https://blog.csdn.net/weixin_45353822/article/details/106773910

版权

最优化方法专栏收录该内容

5 篇文章 3 订阅

订阅专栏

文章目录

等式约束问题

问题形式：
$\begin{array}{ll} \min f(\boldsymbol{x}), & \boldsymbol{x} \in \mathbf{R}^{n} \\ \text { s.t. } h_{i}(\boldsymbol{x})=0, & i=1,2, \cdots, l \end{array} \qquad \tag {1}$
做问题（1）的拉格朗日函数：
$L(\boldsymbol{x}, \boldsymbol{\lambda})=f(\boldsymbol{x})-\sum_{i=1}^{l} \lambda_{i} h_{i}(\boldsymbol{x})$
其中， $\lambda = (\lambda_1,\lambda_2,\cdots,\lambda_l)^T$ 为乘子向量。

等式的KKT条件

问题（1）取极小值的一阶必要条件，也就是通常所说的KKT条件（Karush-Kuhn-Tucker条件）：

定理 1 设问题（1）的局部极小点为： $x^*$ ,函数 $f(x)和h_i(x)(i=1,2,\cdots,l)$ 在 $x^*$ 的某邻域连续可微，向量组 $\nabla h_i(x^*)$ 线性无关，则存在乘子向量 $\lambda = (\lambda_1,\lambda_2,\cdots,\lambda_l)^T$ 使得:
$\nabla_{x} L\left(\boldsymbol{x}^{*}, \boldsymbol{\lambda}^{*}\right)=\mathbf{0}$
即：
$\nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{l} \lambda_{i}^{*} \nabla h_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0}$
问题（1）取极小值的二阶必要条件，需用到（2）式的拉格朗日函数的梯度和Hesse矩阵，即;
$\begin{array}{l} \nabla L(\boldsymbol{x}, \boldsymbol{\lambda})=\left(\begin{array}{c} \nabla_{\boldsymbol{x}} L(\boldsymbol{x}, \boldsymbol{\lambda}) \\ \nabla_{\boldsymbol{\lambda}} L(\boldsymbol{x}, \boldsymbol{\lambda}) \end{array}\right)=\left(\begin{array}{c} \nabla f(\boldsymbol{x})-\sum_{i=1}^{l} \lambda_{i} \nabla h_{i}(\boldsymbol{x}) \\ -\boldsymbol{h}(\boldsymbol{x}) \end{array}\right) \\ \nabla_{\boldsymbol{x} \boldsymbol{x}}^{2} L(\boldsymbol{x}, \boldsymbol{\lambda})=\nabla^{2} f(\boldsymbol{x})-\sum_{i=1}^{l} \lambda_{i} \nabla^{2} h_{i}(\boldsymbol{x}) \end{array}$
若考虑二阶充分性条件，还需要目标函数和约束函数都是二阶连续可微的。

定理 2 函数 $f(x)和h_i(x)(i=1,2,\cdots,l)$ 二阶连续可微，且存在 $(x^*,\lambda^*) \in R^n \times R^l$ 使得 $\nabla L\left(\boldsymbol{x}^{*}, \boldsymbol{\lambda}^{*}\right)=\mathbf{0}$ 。对 $\forall d \neq 0 \in R^n,\nabla h_i(x^*)^Td=0(i=1,2,...l)$ ，均有 $d^T \nabla_{\boldsymbol{x} \boldsymbol{x}}^{2}L\left(\boldsymbol{x}^{*}, \boldsymbol{\lambda}^{*}\right) d > 0$ ，则 $x^*$ 是问题（1）的一个严格局部极小点。

不等式约束问题

问题形式：
$\begin{array}{ll} \min f(\boldsymbol{x}), & \boldsymbol{x} \in \mathbf{R}^{n} \\ \text { s.t. } g_{i}(\boldsymbol{x})\geq 0, & i=1,2, \cdots, m \end{array} \qquad \tag{2}$
记可行域为 $\mathcal{D}=\left\{\boldsymbol{x} \in \mathbf{R}^{n} | g_{i}(\boldsymbol{x}) \geqslant 0, i=1,2, \cdots, m\right\},$ 指标集 $\mathcal{I}=\{1,2, \cdots, m\}$ 。

不等式约束问题的最优性条件需要用到有效约束，和非有效约束的概念。

问题（2）的一个可行点 $\overline {x} \in \mathcal{D}$ ，使得 $g_i(\overline x) =0$ ，则称不等式约束 $g_i(x) \geq 0$ 为 $\overline x$ 的有效约束。反之，若有 $g_i(\overline x) >0$ ，则称不等式约束 $g_i(x) \geq 0$ 为 $\overline x$ 的非有效约束。称集合： $\mathcal{I} (\overline x) = \{i | g_i(\overline x) = 0 \}$ 为 $\overline x$ 处的有效约束指标集，简称有效集。

下面的两个引理是研究不等式约束问题最优性条件的基础。
引理 1 (Farkas 引理) 设 $\boldsymbol{a}, \boldsymbol{b}_{i} \in \mathbf{R}^{n}(i=1,2, \cdots, r) .$ 则线性不等式组
$\boldsymbol{b}_{i}^{\mathrm{T}} \boldsymbol{d} \geqslant 0, \quad i=1,2, \cdots, r, \boldsymbol{d} \in \mathbf{R}^{n}$
与不等式 $\boldsymbol{a}^{\mathrm{T}} \boldsymbol{d} \geqslant 0$ 相容的充要条件是存在非负实数 $\alpha_{1}, \alpha_{2}, \cdots, \alpha_{r},$ 使得 $\boldsymbol{a}=\sum_{i=1}^{r} \alpha_{i} \boldsymbol{b}_{i}$ .

引理 2 (Gordan 引理) 设 $\boldsymbol{b}_{i} \in \mathbf{R}^{n}(i=1,2, \cdots, r) .$ 线性不等式组
$\boldsymbol{b}_{i}^{\mathrm{T}} \boldsymbol{d}<0, \quad i=1,2, \cdots, r, \boldsymbol{d} \in \mathbf{R}^{n}$
无解的充要条件是 $\boldsymbol{b}_{i}(i=1,2, \cdots, r)$ 线性相关, 即存在不全为 0 的非负实数 $\alpha_{i}(i=1,2, \cdots, r),$ 使得
$\sum_{i=1}^{r} \alpha_{i} \boldsymbol{b}_{i}=\mathbf{0}$

下面的引理可以认为是一个集合最优性条件

引理 3 设 $\boldsymbol{x}^{*}$ 是不等式约束问题（2）的一个局部极小点, $\mathcal{I}\left(\boldsymbol{x}^{*}\right)=\left\{i | g_{i}\left(\boldsymbol{x}^{*}\right)=0, i=1,2, \cdots, m\right\} .$ 假设 $f(\boldsymbol{x})$ 和 $g_{i}(\boldsymbol{x})(i \in$ $\left.\mathcal{I}\left(\boldsymbol{x}^{*}\right)\right)$ 在 $\boldsymbol{x}^{*}$ 处可微, 且 $\ I ( x ∗ ) ) g_{i}(\boldsymbol{x})\left(i \in \mathcal{I} \backslash \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right)$ 在 $\boldsymbol{x}^{*}$ 处连续, 则问题(2)的可行方向集 F 与下降方向集 $\mathcal{S}$ 的交集是空集, 即 $\mathcal{F} \cap \mathcal{S}=\varnothing$
其中
$\begin{array}{l} \mathcal{F}=\left\{\boldsymbol{d} \in \mathbf{R}^{n} | \nabla g_{i}\left(\boldsymbol{x}^{*}\right)^{\mathrm{T}} \boldsymbol{d}>0, i \in \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right\} \\ \mathcal{S}=\left\{\boldsymbol{d} \in \mathbf{R}^{n} | \nabla f\left(\boldsymbol{x}^{*}\right)^{\mathrm{T}} \boldsymbol{d}<0\right\} \end{array}$

不等式约束的KKT条件

定理 8.3 (KKT 条件) 设 $\boldsymbol{x}^{*}$ 是不等式约束问题 (2) 的局部极小点, 有效约束集 $\mathcal{I}\left(\boldsymbol{x}^{*}\right)=\left\{i | g_{i}\left(\boldsymbol{x}^{*}\right)=0, i=1,2, \cdots, m\right\} .$ 并设 $f(\boldsymbol{x})$ 和 $g_{i}(\boldsymbol{x})(i=1,2, \cdots, m)$ 在 $\boldsymbol{x}^{*}$ 处可微. 若向量组 $\nabla g_{i}\left(\boldsymbol{x}^{*}\right)\left(i \in \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right)$ 线性无关，则存在向量 $\boldsymbol{\lambda}^{*}=\left(\lambda_{1}^{*}, \lambda_{2}^{*}, \cdots,\lambda_{m}^{*}\right)^{\mathrm{T}}$ 使得
$\left\{\begin{array}{l} \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{m} \lambda_{i}^{*} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0} \\ g_{i}\left(\boldsymbol{x}^{*}\right) \geqslant 0, \quad \lambda_{i}^{*} \geqslant 0, \quad \lambda_{i}^{*} g_{i}\left(\boldsymbol{x}^{*}\right)=0, \quad i=1,2, \cdots, m \end{array}\right.$

一般约束问题

现在考虑下面的一般约束优化问题的最优性条件:
$\begin{array}{ll} \min f(\boldsymbol{x}), & \boldsymbol{x} \in \mathbf{R}^{n} \\ \text { s.t. } & h_{i}(\boldsymbol{x})=0, i=1,2, \cdots, l \\ & g_{i}(\boldsymbol{x}) \geqslant 0, \quad i=1,2, \cdots, m \end{array} \qquad \tag{3}$
记可行域为 $\mathcal{D}=\left\{\boldsymbol{x} \in \mathbf{R}^{n} | h_{i}(\boldsymbol{x})=0, i \in \mathcal{E}, g_{i}(\boldsymbol{x}) \geqslant 0, i \in \mathcal{I}\right\},$ 指标集
$\mathcal{E}=\{1,2, \cdots, l\}, \mathcal{I}=\{1,2, \cdots, m\}$
同理有拉格朗日函数：
$L(\boldsymbol{x}, \boldsymbol{\mu ,\lambda})=f(\boldsymbol{x})-\sum_{i=1}^{l} \mu_{i} h_{i}(\boldsymbol{x}) - \sum_{i=1}^{m} \lambda_{i} g_{i}(\boldsymbol{x})$

把定理 1 和定理 3 结合起来即得到一般约束问题 (3) 的KKT 一阶必要条件。

定理 4 （KKT 一阶必要条件）设 $\boldsymbol{x}^{*}$ 是一般约束问题的局部极小点，在 $\boldsymbol{x}^{*}$ 处的有效约束集为
$S\left(\boldsymbol{x}^{*}\right)=\mathcal{E} \cup \mathcal{I}\left(\boldsymbol{x}^{*}\right)=\mathcal{E} \cup\left\{i | g_{i}\left(\boldsymbol{x}^{*}\right)=0, i \in \mathcal{I}\right\}$

并设 $f(\boldsymbol{x}), \quad h_{i}(\boldsymbol{x})(i \in \mathcal{E})$ 和 $g_{i}(\boldsymbol{x})(i \in \mathcal{I})$ 在 $\boldsymbol{x}^{*}$ 处可微. 若向量组

$\nabla h_{i}\left(\boldsymbol{x}^{*}\right)(i \in \mathcal{E}), \nabla g_{i}\left(\boldsymbol{x}^{*}\right)\left(i \in \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right)$

线性无关, 则存在向量 $\left(\boldsymbol{\mu}^{*}, \boldsymbol{\lambda}^{*}\right) \in \mathbf{R}^{l} \times \mathbf{R}^{m}, \text { 其中 } \boldsymbol{\mu}^{*}=\left(\mu_{1}^{*}, \mu_{2}^{*}, \cdots, \mu_{l}^{*}\right)^{\mathrm{T}}, \boldsymbol{\lambda}^{*}=\left(\lambda_{1}^{*}, \lambda_{2}^{*}, \cdots, \lambda_{m}^{*}\right)^{\mathrm{T}},$

使得
$\begin{cases}{c} \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{l} \mu_{i}^{*} \nabla h_{i}\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{m} \lambda_{i}^{*} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0} \\ h_{i}\left(\boldsymbol{x}^{*}\right)=0, i \in \mathcal{E} \\ g_{i}\left(\boldsymbol{x}^{*}\right) \geqslant 0, \\ \quad \lambda_{i}^{*} \geqslant 0, \\ \quad \lambda_{i}^{*} g_{i}\left(\boldsymbol{x}^{*}\right)=0, \quad i \in \mathcal{I} \end{cases} \qquad \tag{4}$
注

(1) 式 (4)称为 KKT 条件, 满足这一条件的点 $\boldsymbol{x}^{*}$ 称为 KKT点. $\left(\boldsymbol{x}^{*},\left(\boldsymbol{\mu}^{*}, \boldsymbol{\lambda}^{*}\right)\right)$ 称为 $\mathrm{KKT}$ 对, 其中 $\left(\boldsymbol{\mu}^{*}, \boldsymbol{\lambda}^{*}\right)$ 称为问题的拉格朗日乘子. 通常 KKT 点、KKT 对和 KKT 条件可以不加区别的使用。
(2) $\quad \lambda_{i}^{*} g_{i}\left(\boldsymbol{x}^{*}\right)=0\left(i \in \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right)$ 称为互补性松他条件. 这意味着 $\lambda_{i}^{*}$ 和 $g_{i}\left(\boldsymbol{x}^{*}\right)$ 中至少有一个必为 $0.$ 若二者中的一个为0, 而另一个严格大于0，则称为满足严格互补性松弛条件。

例子

例考虑优化问题
$-2x_{1}^{2} - x_{2}^{2} \\ s.t. \quad x_1^2 + x_2^2 - 2 =0 \\ - x_1^2 + x_2^2 \geq 0 \\ x_1^2, x_2^2 \geq 0$
试验证 $x^* = (1,1)^T$ 为KKT点，并求出问题的KKT对。

解：计算

$\nabla f\left(\boldsymbol{x}^{*}\right)=\left.\left(\begin{array}{l} -4 x_{1} \\ -2 x_{2} \end{array}\right)\right|_{\boldsymbol{x}=\boldsymbol{x}^{*}}=\left(\begin{array}{l} -4 \\ -2 \end{array}\right), \quad \nabla h\left(\boldsymbol{x}^{*}\right)=\left(\begin{array}{l} 2 \\ 2 \end{array}\right), \quad \nabla g_{1}\left(\boldsymbol{x}^{*}\right)=\left(\begin{array}{c} -1 \\ 1 \end{array}\right)$
令
$\nabla f\left(\boldsymbol{x}^{*}\right)-\mu^{*} \nabla h\left(\boldsymbol{x}^{*}\right)-\lambda_{1}^{*} \nabla g_{1}\left(\boldsymbol{x}^{*}\right)=\mathbf{0}$
解得 $\mu^{*}=-1.5, \lambda_{1}^{*}=1 .$ 再令 $\lambda_{2}^{*}=\lambda_{3}^{*}=0,$ 得
$\left\{\begin{array}{l} \nabla f\left(\boldsymbol{x}^{*}\right)-\mu^{*} \nabla h\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{3} \lambda_{i}^{*} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0} \\ \lambda_{i}^{*} g_{i}\left(\boldsymbol{x}^{*}\right)=0, \lambda_{i} \geqslant 0, i=1,2,3 \end{array}\right.$
这表明 $\boldsymbol{x}^{*}$ 是 $\mathrm{KKT}$ 点, $\left(\boldsymbol{x}^{*},\left(\mu^{*}, \boldsymbol{\lambda}^{*}\right)\right)$ 是 $\mathrm{KKT}$ 对, 其中 $\mu^{*}=-1.5，\boldsymbol{\lambda}^{*}=(1,0,0)^{\mathrm{T}}$ 。

注记

一般而言，问题（3）的KKT点不一定是局部极小点，但当问题是凸优化问题时，KKT点、局部极小点、全局极小点是等价的。
凸优化问题是指（3）中的目标函数 $f (x)$ 是凸函数，约束条件 $h_i(x)$ 是线性函数， $g_i(x)$ 是凹函数。
定理 5 $\left(\boldsymbol{x}^{*},\mu^{*}, \boldsymbol{\lambda}^{*}\right)$ 是凸优化问题的KKT点，则 $x^*$ 必为该问题全局极小点。
鞍点不仅是KKT点，也是全局极小点。鞍点一定是KKT点，反之不一定。

暗夜的幕布

关注

5
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
约束优化问题的最优性条件（KKT条件）

文章目录等式约束问题等式的KKT条件不等式约束问题不等式约束的KKT条件一般约束问题例子注记等式约束问题问题形式：min⁡f(x),x∈Rn s.t. hi(x)=0,i=1,2,⋯ ,l(1)\begin{array}{ll}\min f(\boldsymbol{x}), & \boldsymbol{x} \in \mathbf{R}^{n} \\\text { s.t. } h_{i}(\boldsymbol{x})=0, & i=1,2, \cdots,
复制链接

扫一扫