机器学习基础 4：无约束最优化方法

最新推荐文章于 2023-09-04 19:24:56 发布

MatrixArch

最新推荐文章于 2023-09-04 19:24:56 发布

阅读量619

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45118167/article/details/95411662

版权

本文介绍了无约束最优化方法的基础知识，包括收敛速度、凸集和正定矩阵的概念。接着，深入探讨了最优化问题，从多元函数分析到无约束和约束优化问题，特别讲解了KKT条件在解决此类问题中的重要性。文章还提到了外罚函数法和拉格朗日数乘法等优化策略。

摘要由CSDN通过智能技术生成

基础知识

在开始介绍优化方法之前，我们先介绍一些基础知识

收敛速度

如果一种方法（这里指算法），是以前一次迭代的一阶幂乘以一个小于1的因子的速度收敛，则称这种方法为线性收敛（例如二分法），而以高阶幂收敛的方法称为超线性收敛。
具体描述：
设算法产生点列 ${x^{(x)}\}$ ，收敛到解 $x^*$ ，且 $\{x^{(x)}\} \neq x^* ，\forall k$ ，则

线性收敛：当 $k$ 充分大时有
$\frac{\|x^{(x+1)}-x^*\|}{\|x^{(x)}-x^*\|} < 1$

超线性收敛： $\lim_{k\rightarrow\infty} \frac{\|x^{(x+1)}-x^*\|}{\|x^{(x)}-x^*\|} = 0$

二阶收敛： $\exists \alpha>0$ ，当 $k$ 充分大时有： $\frac{\|x^{(x+1)}-x^*\|}{\|x^{(x)}-x^*\|} \leq\alpha$

我们知道上面的符号 $\|\cdots\|$ 是范数的符号，范数可以用来度量向量之间的距离。对最简单的情况——一维向量来说——上面的各个相减的式子就可以表示两点之间的距离。

凸集 (convex set)

凸集在最优化领域占有重要地位。其数学定义是：

设有 $N$ 维空间的子集 $D$ ，如果对于任意的向量（也可以说是 $N$ 维空间中的点） $X_1、X_2 \in D$ ，以及任意的实数 $\in [0, 1]$ ，都有 $aX_1+(1-a)X_2 \in D$ ，那么则称 $D$ 为凸集。

凸集的几何意义是：

如果 $D$ 为非空集合，则连接 $D$ 中任意两个点 $X_1、X_2$ 的线段仍属于该集合。

这似乎有点令人费解： $aX_1+(1-a)X_2 \in D$ 与两点之间的连线有什么关系呢？它表示连接这两点的线段上的任意一点。简单推导如下：

假设X为线段 $X_1X_2$ 上的任一点，则向量 $\vec{X_2X}$ 平行于向量 $\vec{X_2X_1}$ ，且 $\leq |\vec{X_2X}|\leq|\vec{X_2X_1}|$ 。
因此，存在数 $\in [0, 1]$ ，使得 $\vec{X_2X}= a\vec{X_2X_1}$ ，即： $X-X_2= a(X_1-X_2)$ ，即 $X = aX_1+(1-a)X_2$ 。由于X是线段 $X_1X_2$ 上任一点，因此前面的结论不言自明。

正定矩阵 (positive definite matrix)

设 $\bf{M}$ 是 $\bf{n}$ 阶方阵，如果对任何非零列向量 $\bf{x}\in R^n$ ，都有 $\bf{x^TMx}>0$ ，就称 $\bf{M}$ 为正定矩阵。
当 $\bf{x^TMx}>0$ 弱化为 $\bf{x^TMx} \geq 0$

最低0.47元/天解锁文章

MatrixArch

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础 4：无约束最优化方法

最优化问题现实生活中，常常会遇到某类实际问题，我们需要在众多的方案中选择一个最优的，使得实现的成本最小化，这种问题被称为最优化问题。最优化问题可以看作求一个多元函数在某个给定集合上的极值问题，都可以用下面的数学模型来描述：min⁡f(x)  s.t.  x∈Ω \min f(x)\ \ s.t. \ \ x \in \Omega minf(...
复制链接

扫一扫