数值最优化---引理12.2证明

这个引理的证明看上去十分复杂,因此打算搁置在这里,但在后面的一节用到了证明的一个中间结论,所有提前来学习一下证明过程。首先给出切锥、线性可行方向、和引理12.2的文字描述:

 

         证明引理12.2的第一部分: T_\Omega(x^*)\subset F(x^*) :

证明的思路是:属于第一个集合的元素一定属于第二个集合,因此证明出了第一个集合是第二个集合的子集。

最最开始的时候,书上做了一个假设:所有(总共 m 个)约束在可行点 x^* 点都是有效的(将not有效的约束排除在外而不考虑。这些约束的符号在 x^* 的邻域内是不变的,有点类似极限的保号性)。这个假设在证明的第二部分中有用到。

由切锥的定义式,\lim_{k\to \infty} \frac{z_k-x^*}{t_k} = d  令:z_k = x^* + t_kd+o(t_k)

再取出等式约束i\in \varepsilon ,又由于z_k 是可行点(这个条件很容易被忽视),所以c_i(z_k) = 0

所以  \frac{1}{t_k} c_i(z_k) = 0。因此将展开式带入有:

0 = \frac{1}{t_k} c_i(z_k) = \frac{1}{t_k}[c_i(x^*) + t_k\triangledown c_i(x^*)^Td+o(t_k)] = \triangledown c_i(x^*)^Td+ \frac{o(t_k)}{t_k}

所以可得:\triangledown c_i(x^*)^Td = 0

同理,再取出有效集中的不等式约束,可得:\triangledown c_i(x^*)^Td \geqslant 0;

因此,切锥中任一元素均满足了线性可行方向的两个条件,引理第一部分证明完毕。

        证明引理12.2的第二部分:如果LICQ成立,则有T_\Omega(x^*) = F(x^*)

因为用到的前置内容比较多,这里先都给列出来: 

首先是LICQ的定义:

然后是一个单纯的代换:

 这里为了方便理解写一个例子做示范:c_1(x,y) = x^2+4y=0\quad c_2(x,y) = x+y = 0 则:

[\triangledown c_i(x)]_{i\in A(x)}= \begin{pmatrix} \frac{\partial (x^2+4y)}{\partial x}&\frac{\partial (x+y)}{\partial x} \\\frac{\partial (x^2+4y)}{\partial y} &\frac{\partial (x+y)}{\partial y}\end{pmatrix}=\begin{pmatrix} 2x^*&1\\ 4&1 \end{pmatrix} = A(x^*)^T

所以,A(x^*) = \begin{pmatrix} 2x^*&4\\ 1& 1 \end{pmatrix}

这里需要说明一下A(x^*)这个矩阵的维度,对于n维的空间中的m个有效的线性无关的约束,[\triangledown c_i(x)]_{i\in A(x)}的维度是n\times m 的,因此A(x^*)是 m \times n 的。又由于这m个约束是线性无关的,所以有m \leq nA(x^*) 矩阵的秩R[A(x^*)] = m

然后是熟悉又陌生的,定理A.2,也就是高数中讲到的隐函数定理,引理12.2证明很复杂,很大程度上就是由于要构造和使用这个隐函数定理。

 下面开始真正的证明部分:

        对于矩阵相乘:A(x^*)_{m\times n}Z_{n \times (n-m)} = 0,我们令Z 是一个维度为n \times (n-m)的矩阵,并且这n-m个列向量就是A(x^*)的零空间的基。线性代数的知识(下图定理7,摘自统计线性代数第四章线性方程组解的结构)保证了上述操作可以实现。 

        进而,任取d\in F(x^*),我们的目的就是证明出:在LICQ的情况下,d\in T_\Omega(x^*)

        定义一个函数 R:R^n\times R \to R^n,如下所示:

 我们还是要讨论一下12.40中间这个矩阵的维度:c(z) 和 tA(x^*)d 都是m\times 1的,下面那一部分是(n-m)\times 1 的,因此合起来是n \times 1 的。

对于c(z) ,仍用上面的例子写出来: c(z)=\begin{pmatrix} x^2+4y\\ x+y \end{pmatrix}

可以看出,z = x^*,t=0 是这个函数的一个解,进而求出函数R在这一点的梯度:

 可能有问题的地方是为什么矩阵的第一个元素是A(x^*)。动手算,用上面的例子算一下就会发现,c(z)求梯度算出来的雅可比矩阵就是A(x^*)

并且,由于上面提到的Z 和A(x^*) 的秩的关系,12.41这个n\times n矩阵的秩正好是n ,也就是非奇异。因此,到这里,我们就构造出了隐函数定理的三个条件。

进而使用隐函数定理的结论有:对于任意足够小的 t_k ,我们都会有一个与之相匹配的 z_k 一起组成了等式12.40的解。

但是目前来看,这个z_k 并没有什么好的性质,即并不知道它是否属于切锥,我们只知道它和t_k>0 一起满足式12.40。因此我们将z_k带入12.40的上分块,并结合 d\in F(x^*) 有: 

因此,i\in \varepsilon : c_i(z_k) = 0   和  i\in A(x^*)\cap I : c_i(z_k) \geq 0 被满足,并且由于最开始的假设,我们只考虑有效集中的约束,抛弃有效集之外的约束,进而可以证明出在 x^* 的邻域中的 z_k 同样是一个feasible point可行点

此时,我们已经可以构造出一个正的序列\{t_k\} ,和可行点序列 \{z_k\}。再给出一些推导:
 推导时要注意的是,隐函数定理结果中的连续函数关系保证了当t_k\rightarrow 0 时,z_k\rightarrow x^*,即        \lim_{t_k\rightarrow 0} o\left | \left | z_k - x^* \right | \right | \rightarrow 0,那么最上面R(z_k,t_k) 推导中的最后一个等号,就相当于在矩阵的下分块处加了一个极限为0的余项,因而不改变原来的零值。 

在这之后,由于那个大矩阵是满秩的,(我认为)已经有\lim_{k\rightarrow \infty }\frac{z_k-x}{t_k} = d。不明白为什么书上还有一个余项存在,不太理解这是什么操作。

因此,到这里,我们就算成功的证明出了对于任意的 d\in F(x^*) ,有 d\in T_\Omega(x^*),结合第一个证明,所以F(x^*) = T_\Omega(x^*) 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值