807补充（七）（拉格朗日乘子篇）

总是摸鱼的猫

已于 2024-01-13 21:49:27 修改

阅读量352

点赞数 10

分类专栏：模式识别补充文章标签：线性代数矩阵

于 2024-01-13 21:42:00 首次发布

本文链接：https://blog.csdn.net/weixin_54255111/article/details/135576325

版权

模式识别补充专栏收录该内容

11 篇文章 6 订阅

订阅专栏

807补充七（拉格朗日乘子篇）

在这里插入图片描述

一.几何解释

⽬前为⽌，我们已经考虑了在形式为 $g(\boldsymbol x) = 0$ 的等式限制（equality constraint）下最⼤化函数的问题。我们现在考虑形式为 $g(\boldsymbol x) \geq 0$ 的不等式限制（inequality constraint）下最⼤化函数 $f (x)$ 的问题，如图所示。

在这里插入图片描述

根据受限制条件下的驻点是否位于区域 $g(\boldsymbol{x})>0$ 中, 有两种可能的解。如果驻点位于 $g(\boldsymbol{x})>0$ 的区域中, 我们说限制条件未激活（inactive）。如果驻点位于 $g(\boldsymbol{x})=0$ 的边界上,我们说限制条件激活 (active)。在第一种情况下, 函数 $g(\boldsymbol{x})$ 不起作用, 函数在驻点处的条件只是 $\nabla f(\boldsymbol{x})=0$ 。这同样对应于拉格朗日方程 $L(\boldsymbol{x}, \lambda) \equiv f(\boldsymbol{x})+\lambda g(\boldsymbol{x})$ 的驻点, 但是 $\lambda=0$ 。在后一种情况下, 解位于边界上, 这类似于之前讨论过的等式限制的情形, 对应于拉格朗日方程在 $\lambda \neq 0$ 的条件下的驻点。但是现在, 拉格朗日乘子的符号很重要, 因为只有当梯度向量指向远离 $g(\boldsymbol{x})>0$ 的区域时, 函数 $f(\boldsymbol{x})$ 才会取得最大值(不然的话驻点就不会在边界上，而是在内部), 如图所示。于是对于某些 $\lambda>0$ , 我们有 $\nabla f(\boldsymbol{x})=-\lambda \nabla g(\boldsymbol{x})$ 。

对于两种情况中的任意一种, 乘积 $\lambda g(\boldsymbol{x})=0$ 。因此在限制条件 $g(\boldsymbol{x}) \geq 0$ 下最大化 $f(\boldsymbol{x})$ 的问题的解可以通过下面的方式获得：关于 $\boldsymbol{x}$ 和 $\lambda$ 最优化拉格朗日函数，限制条件为
$\begin{gathered} g(\boldsymbol{x}) \geq 0 \\ \lambda \geq 0 \\ \lambda g(\boldsymbol{x})=0\\ \nabla f(\boldsymbol{x})+\lambda \nabla g(\boldsymbol{x})=0 \end{gathered}$

这些被称为Karush-Kuhn-Tucker (KKT)条件（Karush, 1939; Kuhn and Tucker, 1951）。
注意, 如果我们想在不等式限制 $g(\boldsymbol{x}) \geq 0$ 下最小化（而不是最大化）函数 $f(\boldsymbol{x})$ , 那么我们要关于 $\boldsymbol{x}$ 最小化拉格朗日函数 $L(\boldsymbol{x}, \lambda)=f(\boldsymbol{x})-\lambda g(\boldsymbol{x})$ , 限制条件为 $\lambda \geq 0$ 。

最后, 将拉格朗日乘数法的技术推广到多个等式限制和不等式限制的情形是很直接的。假设我们希望在限制条件为 $g_j(\boldsymbol{x})=0, j=1, \ldots, J$ 和 $h_k(\boldsymbol{x}) \geq 0, k=1, \ldots, K$ 的情况下最大化 $f(\boldsymbol{x})$ ,我们就会引入拉格朗日乘数 $\left\{\lambda_j\right\}$ 和 $\left\{\mu_k\right\}$ , 然后最优化下面的拉格朗日函数
$L\left(\boldsymbol{x},\left\{\lambda_j\right\},\left\{\mu_k\right\}\right)=f(\boldsymbol{x})+\sum^J \lambda_j g_j(\boldsymbol{x})+\sum^K \mu_k h_k(\boldsymbol{x})$
限制条件为 $\mu_k \geq 0$

由此得出原问题
$\begin{aligned} \text{maxmize} \qquad f(\boldsymbol x)\\ \text{s.t}\qquad h(\boldsymbol x_i)\geq0\\ \qquad \ \ \ g(\boldsymbol x_j)=0\\ \Updownarrow\\ \text{minmize} \qquad -f(\boldsymbol x)\\ \text{s.t}\qquad -h(\boldsymbol x_i)\leq0\\ \qquad \ \ \ -g(\boldsymbol x_j)=0 \end{aligned}$
的无约束形式是
$\text{maxmize}\qquad L\left(\boldsymbol{x},\left\{\lambda_j\right\},\left\{\mu_k\right\}\right)=f(\boldsymbol{x})+\sum^J \lambda_j g_j(\boldsymbol{x})+\sum^K \mu_k h_k(\boldsymbol{x})\qquad \mu_k \geq 0\\ \Updownarrow\\ \text{minmize}\qquad -L\left(\boldsymbol{x},\left\{\lambda_j\right\},\left\{\mu_k\right\}\right)=-f(\boldsymbol{x})-\sum^J \lambda_j g_j(\boldsymbol{x})-\sum^K \mu_k h_k(\boldsymbol{x})\qquad \mu_k \geq 0$
改写形式，转化为优化标准型
$\begin{array}{rl} \min _{\boldsymbol x \in \mathbb{R}^n} & f_0(\boldsymbol x), \\ \text { s.t. } & f_i(\boldsymbol x) \leqslant 0, i \in \mathcal{I}, \\ & h_j(\boldsymbol x)=0, j \in \mathcal{E}, \end{array}\\ \Leftrightarrow\\ \text{minmize} \qquad L(\boldsymbol x, \lambda, v)=f_0(\boldsymbol x)+\sum_{i \in \mathcal{I}} \lambda_i f_i(\boldsymbol x)+\sum_{i \in \mathcal{E}} v_j h_i(\boldsymbol x) \qquad \lambda_i\geq0$

二.凸优化基础

对于 $\mathbb{R}^n$ 中的两个点 $x_1 \neq x_2$ , 形如
$y=\theta x_1+(1-\theta) x_2$

的点形成了过点 $x_1$ 和 $x_2$ 的直线. 当 $\leqslant \theta \leqslant 1$ 时, 这样的点形成了连接点 $x_1$ 与 $x_2$ 的线段.

仿射集:如果过集合 $C$ 中任意两点的直线都在 $C$ 内, 则称 $C$ 为仿射集, 即
$x_1, x_2 \in C \Longrightarrow \theta x_1+(1-\theta) x_2 \in C, \forall \theta \in \mathbb{R} .$

线性方程组 $A x = b$ 的解集是仿射集. 反之, 任何仿射集都可以表示成一个线性方程组的解集

凸集:如果连接集合 $C$ 中任意两点的线段都在 $C$ 内, 则称 $C$ 为凸集，即
$x_1, x_2 \in C \Longrightarrow \theta x_1+(1-\theta) x_2 \in C, \forall 0 \leqslant \theta \leqslant 1 \text {. }$

从仿射集的定义容易看出仿射集都是凸集。

从凸集可以引出凸组合和凸包等概念. 形如
$\begin{array}{r} x=\theta_1 x_1+\theta_2 x_2+\cdots+\theta_k x_k \\ \theta_1+\theta_2+\cdots+\theta_k=1, \quad \theta_i \geqslant 0, i=1,2, \cdots, k \end{array}$

的点称为 $x_1, x_2, \cdots, x_k$ 的凸组合. 集合 $S$ 中点所有可能的凸组合构成的集合称作 $S$ 的凸包, 记作 $\operatorname{conv} S$ . 实际上, $\operatorname{conv} S$ 是包含 $S$ 的最小的凸集. 如图所示, 左边的为离散点集的凸包, 右边的为扇形的凸包.

在这里插入图片描述

仿射包: 设 $S$ 为 $\mathbb{R}^n$ 的子集，称如下集合为 $S$ 的仿射包:
$\left\{x \mid x=\theta_1 x_1+\theta_2 x_2+\cdots+\theta_k x_k, \quad x_1, x_2, \cdots, x_k \in S, \quad \theta_1+\theta_2+\cdots+\theta_k=1\right\},$

记为 affine $S$ .

一般而言，一个集合的仿射包实际上是包含该集合的最小的仿射集。

球和椭球也是常见的凸集. 球是空间中到某个点距离（或两者差的范数) 小于某个常数的点的集合, 并将
$B\left(x_c, r\right)=\left\{x \mid\left\|x-x_c\right\|_2 \leqslant r\right\}=\left\{x_c+r u \mid\|u\|_2 \leqslant 1\right\}$

称为中心为 $x_c$ , 半径为 $r$ 的 (欧几里得) 球. 而形如
$\left\{x \mid\left(x-x_c\right)^{\mathrm{T}} P^{-1}\left(x-x_c\right) \leqslant 1\right\}$

的集合称为椭球, 其中 $\in \mathcal{S}_{++}^n$ (即 $P$ 对称正定). 椭球的另一种表示为 $\left\{x_c+A u \mid\|u\|_2 \leqslant 1\right\}, A$ 为非奇异的方阵.

在定义一个球时, 并不一定要使用欧几里得空间的距离. 对于一般的范数, 同样可以定义 “球”. 令 $\|\cdot\|$ 是任意一个范数,
$\left\{x \mid\left\|x-x_c\right\| \leqslant r\right\}$

称为中心为 $x_c$ , 半径为 $r$ 的范数球. 另外, 我们称集合
$\{(x, t) \mid\|x\| \leqslant t\}$

为范数雉. 欧几里得范数雉也称为二次雉. 范数球和范数雉都是凸集.

凸函数:设函数 $f$ 为适当函数, 如果 $\operatorname{dom} f$ 是凸集, 且
$f(\theta x+(1-\theta) y) \leqslant \theta f(x)+(1-\theta) f(y)$

对所有 $\in \operatorname{dom} f, 0 \leqslant \theta \leqslant 1$ 都成立, 则称 $f$ 是凸函数.

直观地来看, 连接凸函数的图像上任意两点的线段都在函数图像上方,相应地, 我们也可以定义凹函数：若 $- f$ 是凸函数, 则称 $f$ 是凹函

数.只要改变一下符号, 很多凸函数的性质都可以直接应用到凹函数上. 另外,如果 $\operatorname{dom} f$ 是凸集, 且
$f(\theta x+(1-\theta) y)<\theta f(x)+(1-\theta) f(y)$

对所有的 $\in \operatorname{dom} f, x \neq y, 0<\theta<1$ 成立, 则称 $f$ 是严格凸函数.

相对内点集：给定集合 $\mathcal{D}$ , 记其仿射包为 affine $\mathcal{D}$ . 集合 $\mathcal{D}$ 的相对内点集定义为
$\text { relint } \mathcal{D}=\{x \in \mathcal{D} \mid \exists r>0 \text {, 使得 } B(x, r) \cap \text { affine } \mathcal{D} \subseteq \mathcal{D}\} .$

凸优化问题:凸优化问题是一类特殊的优化问题，它的定义略有不同:
$\begin{aligned} \text{minimize}\ \ &f_0(x) \\ \\ \text{s.t}\ \ &f_i(x) ≤ 0, i = 1, 2, · · ·m \\ \\ &a^T_ix = b_i, i = 1, 2, · · · , p \end{aligned}$

其中 $f_0, f_1, · · · , f_m$ 为凸函数。可以看到，凸优化问题与一般优化问题的区别在于：

• 目标函数必须是凸的

• 不等式约束函数必须是凸的

• 等式约束函数必须是仿射的

三.slater条件

KKT条件只是取得极小值的必要条件，想要判定是否能取得极小值还需要一些额外的条件。

如果原优化问题是凸问题，即形如
$\begin{aligned} \text{minimize}\ \ &f_0(x) \\ \\ \text{s.t}\ \ &f_i(x) ≤ 0, i = 1, 2, · · ·m \\ \\ &a^T_ix = b_i, i = 1, 2, · · · , p \end{aligned}$
问题中 $f_0, f_1, · · · , f_m$ 均为凸函数等式约束为仿射的，则KKT条件通常就是充要条件。

如果原问题是凸的且满足Slater条件：存在一点 $\in \text{relint}D$ （可以简单理解为 $D$ 的内点集，也就是 $D$ 去掉边界后的部分）使得所有的不等式约束严格成立、等式约束成立，即
$f_i(x)<0, i = 1, 2, · · · , m, Ax = b$
则KKT条件就是充要条件！如果不等式约束 $f_i$ 中前 $K$ 个是仿射的，则可以得到弱Slater条件，即：存在一点 $\text{relint}D$ 使得
$f_i(x) ≤ 0, i = 1, 2, · · · , k, f_i(x)<0, i = k + 1, · · · , m, Ax = b$
则KKT条件也是充要条件。

四.线性无关的约束限制

对于不等式约束 $f_i(\boldsymbol{x}) \leqslant 0, i=1, \cdots, m$ , 若在点 $\overline{\boldsymbol{x}}$ 有 $f_i(\overline{\boldsymbol{x}})=0$ , 则称第 $i$ 个约束是在 $\overline{\boldsymbol{x}}$ 点的积极约束 (active constraint); 若 $f_i(\overline{\boldsymbol{x}})<0$ , 则称第 $i$ 个约束是在 $\overline{\boldsymbol{x}}$ 点的非积极约束 (inactive constraint)。若 $f_i(\overline{\boldsymbol{x}})>0$ , 则称第 $i$ 个约束是在 $\overline{\boldsymbol{x}}$ 点的违法约束 (violated constraint)。在 $\overline{\boldsymbol{x}}$ 点的所有积极约束的指标集 $\mathcal{A}(\overline{\boldsymbol{x}})=\left\{i \mid f_i(\overline{\boldsymbol{x}})=0\right\}$ 称为 $\overline{\boldsymbol{x}}$ 点的作用集 (active set)。

令 $m$ 个不等式约束 $f_i(\boldsymbol{x}), i=1, \cdots, m$ 在某个 $\mathrm{KKT}$ 点 $\boldsymbol{x}^{\star}$ 共有 $k$ 个积极约束 $f_{\mathcal{A} 1}\left(\boldsymbol{x}^{\star}\right), \cdots, f_{\mathcal{A} k}\left(\boldsymbol{x}^{\star}\right)$ 和 $m - k$ 个非积极约束。

为了满足 $\mathrm{KKT}$ 条件中的互补性 $\lambda_i f_i\left(\boldsymbol{x}^{\star}\right)=0$ , 与非积极约束 $f_i\left(\boldsymbol{x}^{\star}\right)<0$ 对应的 Lagrangian 乘子 $\lambda_i^{\star}$ 必须等于零。这意味着, 式中的最后一个 KKT 条件变为
$\nabla f_0\left(\boldsymbol{x}^{\star}\right)+\sum_{i \in \mathcal{A}} \lambda_i^{\star} \nabla f_i\left(\boldsymbol{x}^{\star}\right)+\sum_{i=1}^q \nu_i^{\star} \nabla h_i\left(\boldsymbol{x}^{\star}\right)=\mathbf{0}$

或者
$\left[\begin{array}{c} \frac{\partial f_0\left(\boldsymbol{x}^{\star}\right)}{\partial x_1^{\star}} \\ \vdots \\ \frac{\partial f_0\left(\boldsymbol{x}^{\star}\right)}{\partial x_n^{\star}} \end{array}\right]+\left[\begin{array}{ccc} \frac{\partial h_1\left(\boldsymbol{x}^{\star}\right)}{\partial x_1^{\star}} & \cdots & \frac{\partial h_q\left(\boldsymbol{x}^{\star}\right)}{\partial x_1^{\star}} \\ \vdots & \ddots & \vdots \\ \frac{\partial h_1\left(\boldsymbol{x}^{\star}\right)}{\partial x_n^{\star}} & \cdots & \frac{\partial h_q\left(\boldsymbol{x}^{\star}\right)}{\partial x_n^{\star}} \end{array}\right]\left[\begin{array}{c} \nu_1^{\star} \\ \vdots \\ \nu_q^{\star} \end{array}\right]=-\left[\begin{array}{ccc} \frac{\partial f_{\mathcal{A} 1}\left(\boldsymbol{x}^{\star}\right)}{\partial x_1^{\star}} & \cdots & \frac{\partial f_{\mathcal{A} k}\left(\boldsymbol{x}^{\star}\right)}{\partial x_1^{\star}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{\mathcal{A} 1}\left(\boldsymbol{x}^{\star}\right)}{\partial x_n^{\star}} & \cdots & \frac{\partial f_{\mathcal{A} k}\left(\boldsymbol{x}^{\star}\right)}{\partial x_n^{\star}} \end{array}\right]\left[\begin{array}{c} \lambda_{\mathcal{A} 1}^{\star} \\ \vdots \\ \lambda_{\mathcal{A} k}^{\star} \end{array}\right]$

既有
$\nabla f_0\left(\boldsymbol{x}^{\star}\right)+\left(\boldsymbol{J}_h\left(\boldsymbol{x}^{\star}\right)\right)^{\mathrm{T}} \boldsymbol{\nu}^{\star}=-\left(\boldsymbol{J}_{\mathcal{A}}\left(\boldsymbol{x}^{\star}\right)\right)^{\mathrm{T}} \boldsymbol{\lambda}_{\mathcal{A}}^{\star}$
式中 $\boldsymbol{J}_h\left(\boldsymbol{x}^{\star}\right)$ 是等式约束 $h_i(\boldsymbol{x})=0, i=1, \cdots, q$ 在点 $\boldsymbol{x}^{\star}$ 的 Jacobian 矩阵, 而
$\begin{aligned} \boldsymbol{J}_{\mathcal{A}}\left(\boldsymbol{x}^{\star}\right) & =\left[\begin{array}{ccc} \frac{\partial f_{\mathcal{A} 1}\left(\boldsymbol{x}^{\star}\right)}{\partial x_1^{\star}} & \cdots & \frac{\partial f_{\mathcal{A} 1}\left(\boldsymbol{x}^{\star}\right)}{\partial x_n^{\star}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{\mathcal{A} k}\left(\boldsymbol{x}^{\star}\right)}{\partial x_1^{\star}} & \cdots & \frac{\partial f_{\mathcal{A} k}\left(\boldsymbol{x}^{\star}\right)}{\partial x_n^{\star}} \end{array}\right] \in \mathbb{R}^{k \times n} \\ \lambda_{\mathcal{A}}^{\star} & =\left[\lambda_{\mathcal{A} 1}^{\star}, \cdots, \lambda_{\mathcal{A} k}^{\star}\right] \in \mathbb{R}^k \end{aligned}$

分别是积极约束的 Jacobian 矩阵和 Lagrangian 乘子向量。
上式表明, 若积极约束在可行点 $\overline{\boldsymbol{x}}$ 的 Jacobian 矩阵 $\boldsymbol{J}_{\mathcal{A}}(\overline{\boldsymbol{x}})$ 满行秩（存在右伪逆）, 则积极约束的 Lagrangian 乘子向量可由
$\boldsymbol{\lambda}_{\mathcal{A}}^{\star}=-\left(\boldsymbol{J}_{\mathcal{A}}(\overline{\boldsymbol{x}}) \boldsymbol{J}_{\mathcal{A}}(\overline{\boldsymbol{x}})^{\mathrm{T}}\right)^{-1} \boldsymbol{J}_{\mathcal{A}}(\overline{\boldsymbol{x}})\left[\nabla f_0(\overline{\boldsymbol{x}})+\left(\boldsymbol{J}_h(\overline{\boldsymbol{x}})\right)^{\mathrm{T}} \boldsymbol{\nu}^{\star}\right]$

唯一确定。为此, 对积极约束的梯度向量有以下规定。

考虑不等式约束 $f_i(\boldsymbol{x}) \leqslant 0$ 。称线性无关约束规定 (LICQ: linear independence constraint qualification) 在可行点 $\overline{\boldsymbol{x}}$ 成立, 若积极约束的梯度 $\nabla f_{\mathcal{A} i}(\overline{\boldsymbol{x}}), i \in \mathcal{A}$ 线性无关, 或积极约束的 Jacobian 矩阵 $J_{\mathcal{A}}(\bar{x})$ 满行秩。

总是摸鱼的猫

关注

10
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
807补充（七）（拉格朗日乘子篇）

⽬前为⽌，我们已经考虑了在形式为gx0的等式限制（equality constraint）下最⼤化函数的问题。我们现在考虑形式为gx≥0的不等式限制（inequality constraint）下最⼤化函数fx的问题，如图所示。根据受限制条件下的驻点是否位于区域gx0中, 有两种可能的解。如果驻点位于gx0的区域中, 我们说限制条件。如果驻点位于gx0的边界上,我们说。在第一种情况下, 函数gx不起作用, 函数在驻点处的条件只是∇fx0。
复制链接

扫一扫