最优化导论(一)--集合约束和无约束优化问题的基础知识

zht_zm728

已于 2023-12-01 17:20:18 修改

阅读量269

点赞数 1

文章标签：人工智能机器学习笔记

于 2023-12-01 17:18:51 首次发布

本文链接：https://blog.csdn.net/zht678/article/details/134700511

版权

这一节是第二部分无约束优化的第一节，介绍了无约束优化的一些基本知识还有最优化的条件。

首先给出优化的一般形式：

$min: f(x)\\ s.t. : x \in \Omega$

这里有一些基本术语， $f(x):R^{n}\rightarrow R$ 称为目标函数， $x \in R^{n}$ 称为决策变量， $\Omega$ 称为约束集或可行集。当 $\Omega = R^{n}$ 时，这样一个优化问题就称为无约束优化。

考虑上面一个优化问题，我们的目标是求解 $f(x)$ 的最小值，这里就需要引出一个极小值的概念。书上有详细的定义，这里用白话概括一下就是，对于 $x^{*}$ ，如果它的值恒小于等于它邻域的点对应的值，那么它就是局部极小点；如果对于约束集内除它以外的点都大于等它，那它就是全局极小点。极小点形象的来说就是地面上一个个凹坑的最低点，局部就是这个凹坑的最低点，全局就是所有凹坑的最低点的最低点。

对于我们的优化问题，我们的理想就是找到全局极小点，这样我们就基本解决了问题，但是实际应用中我们认为局部极小点就可以是最优解。第一段提到的最优化条件就是极小点相关的条件。

在介绍最优化条件前需要引入一个可行方向的定义，显然对于无约束优化问题来说， $x$ 在 $R^{n}$ 空间中是可以随意移动的，可以简单理解为一个小球可以在一张无限大的桌子上滚动；但是对于 $\Omega$ 不是 $R^{n}$ 的有约束问题来说，这张桌子就和现实里面一样，不能随便滚动，因此引出朝哪个方向可以滚动的问题，这就是可行方向。这里需要给出数学定义:

对于一个方向 $d \in R^{n},d\neq 0$ 和一个 $x \in \Omega$ ，如果存在一个 $\alpha_{0}> 0$ ，对于所有 $\alpha\in[0,\alpha_{0}]$ ， $x+\alpha d\in\Omega$ 恒成立，则称 $d$ 为 $x$ 处的可行方向。

接下来就可以介绍极小点的相关条件了。首先是极小点的一阶必要条件：

$f:D\subset R^{n}\rightarrow R$ 一阶可微，若是 $x^{*}$ 是 $f$ 在 $D$ 上的局部极小点，则对于 $x^{*}$ 的任意可行方向 $d$ ，都有 $\triangledown f(x^{*})^{T}d \geqslant 0$ 。

对于上面这个定理， $D$ = $\Omega$ ，我们知道 $\triangledown f(x)$ 是指向 $f$ 增大方向的，因为极小点向任意可行方向都是非递减的，因此，可以简单认为，任意可行方向与梯度方向的夹角小于 $\pi /2$ 。下面给出数学证明：

定义 $x(\alpha) = x^{*} + \alpha d \in D,\alpha> 0$

令 $\phi (\alpha) = f(x(\alpha))$

泰勒展开得到 $\phi (\alpha ) = f(x(\alpha)) = f(x(0)) + \triangledown f(x^{*})^{T}d\alpha+o(\alpha)$

所以 $\phi(\alpha)-\phi(0) = \triangledown f(x^{*})^{T}d\alpha+o(\alpha)$

又因为 $x^{*}$ 是极小点，所以 $\phi(\alpha)-\phi(0) = \triangledown f(x^{*})^{T}d\alpha+o(\alpha)\geqslant 0$

当 $\alpha$ 足够小时， $\triangledown f(x^{*})^{T}d\alpha+o(\alpha)$ 的符号由 $\triangledown f(x^{*})^{T}d\alpha$ 决定

所以 $\triangledown f(x^{*})^{T}d \geqslant 0$

由极小点的一阶必要条件还可以推的局部极小点在可行集内部的一阶必要条件：

$f:D\subset R^{n}\rightarrow R$ 一阶可微，若是 $x^{*}$ 是 $f$ 在 $D$ 上的局部极小点，则 $\triangledown f(x^{*})=0$ 。

因为局部极小点在可行集内部，所以任意方向都是可行方向那么可以取相反的两个可行方向，它们与梯度的内积都大于等于0，易知梯度为0。接下来是二阶必要条件：

$f:D\subset R^{n}\rightarrow R$ 二阶连续可微，若是 $x^{*}$ 是 $f$ 在 $D$ 上的局部极小点，则 $d$ 是一个可行方向，且 $\triangledown f(x^{*})^{T}d = 0$ ，则有 $d^{T}\triangledown^{2} f(x^{*})d \geqslant 0$ 成立。

由反证法和泰勒展开易证。这里可以看作我们局部极小点在最低平面上，因此向任意方向梯度都为零，但是因为它是局部极小的，那么再远一点肯定大于等于它，说明远离局部极小点的点的梯度会大于零，这么说梯度将会增大，那么可行方向与黑塞矩阵形成的二次型函数大于等于零。由此可以推出局部极小点在可行集内部的二阶必要条件：

$f:D\subset R^{n}\rightarrow R$ 二阶连续可微，若是 $x^{*}$ 是 $f$ 在 $D$ 上的局部极小点，则 $\triangledown f(x^{*})^{T}d = 0$ 且 $\triangledown^{2} f(x^{*})$ 半正定。

由上面知道对于任意方向都大于等于0，那么显然是因为黑塞矩阵半正定。最后给出二阶充分条件：

$f:D\subset R^{n}\rightarrow R$ 二阶连续可微， $D$ 是开集， $x^{*}\in D$ ， $\triangledown f(x^{*})^{T}d = 0$ 且 $\triangledown^{2} f(x^{*})$ 正定，那么 $x^{*}$ 是 $f$ 在 $D$ 上的严格极小点。

对于这个定理由泰勒展开和瑞利不等式可以证明。因为开集，那么局部极小点肯定不会存在于边界之上，显然它在可行集内部，又因为 $\triangledown f(x^{*})^{T}d = 0$ 说明该点梯度为零， $\triangledown^{2} f(x^{*})$ 正定说明朝任何方向梯度都会变大，那么显然对于任何可行方向，即使前进一点，函数值都会大于该点，因此该点是可行集上的严格极小点，且在可行集内部。