机器学习基础 5：无约束最优化方法——线搜索

最新推荐文章于 2023-09-07 12:16:44 发布

MatrixArch

最新推荐文章于 2023-09-07 12:16:44 发布

阅读量1.1k

点赞数 4

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45118167/article/details/95408283

版权

本文介绍了机器学习中的无约束最优化方法——线搜索。线搜索分为精确和不精确两类，其中精确线搜索以二点三次插值为例，不精确线搜索包括Armijo-Goldstein和Wolfe-Powell准则。线搜索通过迭代计算方向和步长来逼近函数的最值，是优化算法中的关键步骤。

摘要由CSDN通过智能技术生成

泰勒级数

在开始介绍优化方法之前，我们先介绍一些基础知识
$f(x)=\frac{f(\mathbf{a})}{0!}+\frac{f'(\mathbf{a})}{1!}(x-\mathbf{a})+\frac{f''(\mathbf{a})}{2!}(x-\mathbf{a})^2+...+\frac{f^{n}(\mathbf{a})}{n!}(x-\mathbf{a})^n+R_n(x)$

泰勒公式是一个用函数在某点的信息描述其附近取值的公式。上面这个公式，描述了函数 $f (x)$ 在 $\mathbf{a}$ 点附近的取值情况。如果函数足够光滑的话，在已知函数在某一点的各阶导数值的情况之下，泰勒公式可以用这些导数值做系数构建一个多项式来近似函数在这一点的邻域中的值。
泰勒公式就是把一个函数展开成具有任意多项幂级数方便计算任意函数的值（这使得计算机能得出自己想要的精度的值）且可以人为控制误差范围。
泰勒公式还给出了这个多项式和实际的函数值之间的偏差。

一维搜索 / 线搜索 (linear search)

线搜索是最优化（Optimization）算法中的一个基础步骤/算法。它可以分为精确的一维搜索以及不精确的一维搜索两大类。

原理

线搜索是一种迭代的求得某个函数的最值的方法。对于每次迭代, 线搜索会计算得到搜索的方向 $p_k$ 以及沿这个方向移动的步长 $a_k$ 。

搜索方向

大多数的线搜索方法都会要求 $p_k$ 是下降方向(descent direction), 亦即需要满足以下条件: $p_k^T \nabla f_k < 0$ ，这样就能够保证函数 $f (x)$ 沿着这个方向是下降的。一般来说, 搜索方向是：

$p_k=−B_k^{-1}\nabla f_k$

其中 $B_k$ 是一个对称非奇异矩阵：

在最深下降(steepest descent)方法中， $B_k$ 是单位矩阵 $I$

在牛顿方法(Newton)中， $B_k$ 则是海森(Hessian)矩阵 $\nabla^2 f(x_k)$

在Quasi-Newton方法中，则是一个通过迭代求得的Hessian矩阵的近似矩阵

当 $p_k$ 由上式定义, 且 $B_k$ 是正定矩阵时：
$p_k^T\nabla f_k = -\nabla f_k^T B_k^{-1}\nabla f_k <0$

搜索步长

步长 $\alpha$ 应该最小化下面的函数：
$\phi (\alpha)=f(x_k+\alpha p_k)$
但是求得使上式最小的 $\alpha$ 比较困难, 且计算量比较大，实际常用的方法是在可接受的计算量的情况下尽可能的求得较大的步长，以使得 $\phi (\alpha)$ 尽可能的降低。
经典的线搜索方法通过迭代来求得 $\alpha$ ，直至达到某个停止条件。一般的线搜索方法都包含以下两个步骤：

bracketing：求得一个包含理想的步长的区间
二分法或者插值法：在这个区间内使用二分法或者插值法来求得步长

分类

使用导数的优化算法都涉及到沿优化方向 $\mathbf{d}_k$ 的一维搜索。事实上一维搜索算法本身就一个非常重要的课题，分为精确一维搜索以及非精确一维搜索。标准的拟牛顿法或L-BFGS均采用精确一维搜索。与前者相比，非精确一维搜索虽然牺牲了部分精度，但是效率更高，调用函数的次数更少。因此 Li-Fukushima方法和Xiao-Wei-Wang方法中均采用了这类算法。不加证明的，
本节分别给出两类范畴中各自的一个应用最为广泛的例子，分别是二点三次插值方法和Wolfe-Powell准则。

精确线搜索：二点三次插值

在精确一维搜索各种算法中，这种方法得到的评价最高。其基本思想是：

选取两个初始点 $x_1$ 和 $x_2$ ，为了保证了在区间 $x_1, x_2)$ 中存在极小点，需要满足以下条件：

$x_1$ < $x_2$

$f^{'}(x_1)$ < $0$

$f^{'}(x_2)$ > $0$

利用这两点处的函数值 $f(x_1)$ 、 $f(x_2)$ 和导数值 $f^{'} (x_1)$ 、 $f^{'}(x_2)$ 构造一个三次多项式 $\varphi(x)$ ，使得 $\varphi(x)$ 在 $x_1$ 和 $x_2$ 处与目标函数$ f(x) $有相同的函数值和导数值：
$\varphi(x)=a(x- x_1)^3+b(x-x_1)^2+c(x-x_1)+d$
通过4个边界条件可以完全确定4个参数 $a$ 、 $b$ 、 $c$ 、 $d$ 。之后找出 $\varphi^{'}(x)$ 的零点 $x^{'}$ ，作为极小点的一个进一步的估计。可以证明，由 $x_1$ 出发，最佳估计值的计算公式为：
$x^{'}=x_1+\frac{-c}{b+\sqrt{b^2-3ac}}$
记 $f_1=f(x_1)$ 、 $f_2=f(x_2)$ 、 $f^{'}_1=f^{'}(x_1)$ 、 $f^{'}_2 =f^{'}(x_2)$ ，则具体算法步骤如下：