无约束优化的自适应三次高估方法。

weixin_45179715

已于 2023-10-13 11:13:01 修改

阅读量74

点赞数

文章标签：笔记

于 2023-10-11 17:49:42 首次发布

本文链接：https://blog.csdn.net/weixin_45179715/article/details/133748478

版权

论文名：Adaptive cubic overestimation methodsfor unconstrained optimization

DOI:10.1007/s10107-009-0286-5

0 Abstract

主要研究内容：An Adaptive Cubic Overestimation(ACO)algorithm for unconstrained optimization is proposed,generalizing at the same time an unpublished method due to Griewank,an algorithm by Nesterov&Polyak and a proposal by Weiser,Deuflhard&Erdmann .

提出了一种求解无约束优化问题的自适应三次高估( ACO )算法，同时推广了Griewank 未发表的方法，以及涅斯捷罗夫& Polyak 和Weiser，多伊夫尔哈德&埃德曼等人的算法。

迭代情况：At each iteration of our approach,an approximate global minimizer of a local cubic regularization of the objective function is determined,and this ensures a significant improvement in the objective so long as the Hessian of the objective is locally Lipschitz continuous.

在我们的方法的每一次迭代中，目标函数的局部三次正则化的近似全局极小点被确定，这确保了只要目标函数的Hessian是局部Lipschitz连续的，目标函数的显著改善。

新方法效果：The new method uses an adaptive estimation of the local Lipschitz constant and approximations to the globalmodel-minimizer which remain computationally-viable even for large-scale problems.We show that the excellent global and local convergence properties obtained by Nesterov&Polyak are retained,and sometimes extended to a wider class of problems,by our ACO approach.

新方法使用局部Lipschitz常数的自适应估计和对全局模型最小化器的近似，即使在大规模问题中也保持了计算上的可行性。通过我们的ACO方法，我们证明了涅斯捷罗夫& Polyak所获得的优秀的全局和局部收敛性质被保留，并且有时扩展到更广泛的一类问题。

数值实验情况：Numerical experiments with small-scale test problems from the CUTEr set show superior performance of the ACO algorithm when compared to a trust-region implementation.

来自CUTEr集合的小规模测试问题的数值实验表明，与信赖域实现相比，ACO算法的性能优越。

1Introduction

信赖域方法[ 4 ]和线搜索方法[ 8 ]是两种常用的无约束优化收敛方案，常用于实现牛顿型迭代的全局化。本文及其合作者[ 2 ]的工作探索了第三种选择：使用目标函数的三次高估作为正则化技术，用于计算从一个迭代到下一个迭代的步骤。具体来说，假设我们希望找到一个f： $R^n\rightarrow R$ 的局部极小点，一个无约束优化问题的光滑目标函数， $x_k$ 是我们当前的最佳估计。进一步，假设目标的Hessian $\bigtriangledown _{xx}f(x)$ 在 $R^n$ 上是全局Lipschitz连续的，且满足 $\iota _2$ -范数Lipschitz常数L。

新的迭代式 $x_{k + 1} = x_k + s_k$ 改进了f ( x )。因此， $m^C_k ( s )$ 的最小化可用于生成步长 $s_k$ ，构成新的无约束最小化算法的基础。我们关于此类算法的工作借鉴了几条独立的研究路线，有些是最近的，有些是二十五年前的。我们现在简要回顾一下相关的贡献.

前人研究成果

式( 1.1 )的界已经知道很久了，如[ 8 ,引理4.1 . 14]。然而，据我们所知，利用模型 $m^C_k$ 来计算一个步长，首先被Griewank(在未发表的技术报告中)认为是构造牛顿法全局收敛于二阶临界点的仿射不变变体的一种手段。Griewank引入变权模型 $m^C_k ( s )$ 的变体代替常数L，作为正则化牛顿二次模型的一种方式，特别是在存在负曲率的情况下。这种变体是形式上的

其中， $\sigma _k \begin{Vmatrix} . \end{Vmatrix} G_k$ 是迭代选择的，以确保在保持仿射不变性的同时高估性质( 1.1 )。然后，他证明了一个方法的全局收敛到二阶临界点，该方法的步骤是通过寻找提供下降性的模型的任何二阶极小值来计算的。对所有这样的极小值(包括全局的)进行了刻画；收敛性证明基于全局Holder条件和矩阵 $G_k$ 在迭代过程中保持稳定的假设。Griewank还概述了二次局部收敛的证明。最后，他建议最小化 $m^G_k$ 近似(使用非线性共轭梯度法的一个变体)，并考虑了这种修正方法的收敛速度，给出了一些初步的数值结果.

涅斯捷罗夫和Polyak [ 25 ]考虑了类似的想法和未修正的模型 $m^C_k ( s )$ ，尽管从不同的角度考虑。他们能够证明，如果步长是通过全局最小化三次模型计算的，如果目标的Hessian是全局Lipschitz连续的，那么得到的算法比最速下降法具有更好的全局复杂度界。他们完成了这一令人瞩目的结果，表明模型的全局极小值可以从复杂性的角度以可接受的方式计算，并提出了(星)凸和其他特殊情况下的最优复杂度界。该方法也证明了全局收敛到二阶临界点和渐近二次收敛速度，但没有给出数值结果。随后，涅斯捷罗夫[ 24 ]提出了更加精细的方法，进一步改善了凸情况下的复杂度界.

Weiser，多伊夫尔哈德和埃德曼[ 28 ]也通过设计一个仿射不变版本的Newton方法来追求相同的思路(如Griewank )。他们的方法直接从凸问题的技术发展而来[ 9 ]，利用三次模型 $m^G_k ( s )$ ， $G_k =\sigma _ kG$ ，其中G是正定的， $\sigma _k$ 是全局Lipschitz常数(更新 $\sigma _k$ 的技术与Griewank的类似)的一个估计.所提出的方法不考虑全局模型极小化，而是使用近似技术寻找局部极小点，如Krylov空间技术和非线性共轭梯度。再次假设全局Lipschitz连续，但没有给出形式的收敛性或复杂度分析。讨论了有限但令人鼓舞的数值经验。

研究目的和方法：

我们在这里和文献[ 2 ]中的目的是将这些贡献统一和扩展到一个连贯的和数值有效的算法框架中，从而在较弱的假设和更简单的证明条件下证明全局和渐近收敛的结果，同时保留Nesterov和Polyak [ 25 ]所展示的良好的复杂度界。首先，我们放松了在 $R_n$ 上计算一个全局极小元的需要，但证明了在某个合适的子空间上计算一个全局极小元对于获得期望的复杂度界是可以接受的.其次，我们不要求H ( x )在全局上或者在局部上是Lipschitz (或Ho ¨ lder)连续的，而是遵循Griewank和Weiser等人的做法，在( 1.1 )式中引入一个动态的正参数 $\sigma_k$ 代替式( 1.1 )中的带标度的Lipschitz常数 $_\frac{1}{2}L$ （因子 $\frac{1}{2}$ 是为了以后的方便。）。最后，我们允许在每次迭代中对三次模型中的局部Hessian $H ( x_k )$ 进行对称逼近 $B_k$ ；这在实践上可能是非常有用的。因此，代替( 1.1 )的是我们的模型(1.4):

在我们的自适应三次高估( ACO )算法(第5页给出了通用的算法框架)的每次迭代中，我们将其作为f的近似。在这里，对于本文的其余部分，为了简单起见，我们记 $g_k = g ( x_k )$ 和 $\begin{Vmatrix} . \end{Vmatrix} = \begin{Vmatrix} . \end{Vmatrix} _2$ ；我们对三次项的欧几里得范数的选择是为了论述的简洁性。

注意，在前面讨论的提案中，模型的三次项与三阶导数(如果后者完全存在的话)的大小密切相关，而在我们的方法中， $\sigma _ k$ 执行双重任务。也就是说，它不仅可以解释目标函数与其二阶泰勒展开式之间的差异，也可以解释精确Hessian与近似Hessian之间的差异。

类似于信赖域方法，ACO算法过程中参数 $\sigma _ k$ 的更新规则是合理的。在这样的框架下， $\sigma _ k$ 可以看作是信赖域半径的倒数(根据定理3.1的证明和文献中信赖域半径的更新规则,我们给出了一些注记)。因此，如果在相对客观变化的某些度量中获得了不充分的减少，则 $\sigma _ k$ 是增加，否则 $\sigma _ k$ 是减少或不变。

由于在实际中寻找模型 $m_k ( s )$ 的全局极小点可能并不重要，而且从计算的角度来看，这样做可能是昂贵的，因此我们放松了这一要求，让它成为这样一个极小点的近似。最初，我们只要求 $s_k$ 保证模型的降幅至少与沿当前负梯度方向全局最小化( 1.4 )得到的一个合适的柯西点所提供的降幅相同。此外，一个比( 1.1 )中的不等式更温和的条件是计算步长 $s_k$ 被接受的必要条件。假设目标函数连续可微且下方有界，且对于所有的k的 $B_k$ 上方有界，则由§ 2.2可知，ACO迭代至少存在一个一阶临界的极限点。进一步，当f的梯度一致连续(在迭代点上)时，ACO算法全局收敛于一阶临界点。在没有(精确)二阶导数信息的情况下，这些收敛保证的广泛适用性尤其相关。

为了提高ACO算法的性能，我们进一步要求步长 $s_k$ 在更大的子空间中全局最小化模型( 1.4 )。合适的候选者包括Lanczos过程产生的Krylov子空间，或者，在极限情况下，包括整个 $R_n$ -都认为Lanczos过程特别适合大规模问题(见§ 6.2和§ 7 )。为内部迭代指定了额外的终止规则，保证了迭代步数 $s_k$ 不会太短(见引理4.7和4.9)。这些规则中的任何一个都使得ACO算法在适当的假设下至少Q -超线性地(见推论4.8及其证明后的第一个注记)渐近收敛，但不需要假设Hessian的局部或全局Lipschitz连续性(定理4.3 )。

我们还证明了著名的关于Hessian近似 $B_k$ 的Dennis - Mor ´e条件[ 7 ]是充分的，因此某些拟牛顿公式是合适的。在同样的背景下，我们还证明了参数 $\sigma _ k$ 在上方保持有界，所有步骤 $s_k$ 最终都接受(见定理4.3)。在H ( x )上的渐近局部Lipschitz假设，以及 $B_k$ 和 $H ( x_k )$ 在 $s_k$ 上的稍强一致性下，当采用特定的终止准则时，迭代序列的Q -二次收敛性被证明(推论4.10 ) .然而，我们注意到，在我们的数值实验中，这个规则并不是最有效的(见§ 7 )。要求 $B_k$ 与 $H ( x_k )$ 渐近一致(见( 4.19 ) )，不要求Hessian的Lispchitz连续性，我们以类似于信赖域结果的方式，证明迭代序列{ $x_k$ }被吸引到它的一个极限点，即局部极小点(定理4.5 )。在不要求后一结果中目标的局部凸性的情况下，但假设目标Hessian的全局Lipschitz连续性，我们证明迭代序列的任一极限点都是弱二阶临界的，即限制在极小化子空间的Hessian在极限中是半正定的(定理5.4 )。

--------------------------------------------

文献[ 2 ]给出了ACO族方法的最坏迭代复杂度界。当要求在步长上满足温和柯西条件，以及对目标的一些比全局收敛结果更强的假设时，我们得到了ACO算法驱动f在 $\epsilon$ 以下的梯度的范数为 $\epsilon^{-2}$ 阶的总迭代次数的一个上界，这与最速下降法[ 23 ,第29页]相同。这是预期的，因为柯西点条件只需要在负梯度方向上移动。当在包含梯度 $g_k$ 的子空间中跳出模型( 1.4 )的全局极小值并采用适当的终止准则时，可以改进最速下降式的复杂度界。特别地，假设H ( x )是全局Lipschitz连续的，并且近似 $B_k$ 沿 $s_k$ '足够接近' $H ( x_k )$ ，我们证明了ACO算法在生成 $\begin{Vmatrix} g(x_k) \end{Vmatrix} \leqslant \epsilon$ 时具有 $\epsilon^{-\frac{3}{2}}$ 阶的整体最坏迭代次数，在包含 $s_k$ 的子空间中具有 $\epsilon^{-3}$ 阶的整体最坏迭代次数以获得近似非负曲率。这些界与涅斯捷罗夫和Polyak[ 25 , § 3 ]证明的算法3.3的界是一致的。然而，我们的框架，至少对于一阶结果，是更通用的，因为我们允许在 $B_k$ 和 $s_k$ 的选择上有更多的自由。

尽管ACO算法具有良好的收敛性和复杂性，但其实际效率最终取决于精确或近似最小化三次模型 $m_k$ 的能力。尽管 $m_k$ 是非凸的，但定理3.1 首先在[ 19 ]中用不同的方法证明，然后在[ 25 ]中独立证明，给出了 $R_n$ 上全局解的一个强有力的刻画，如§ 6.1所示.我们的研究表明，如果矩阵 $B_k$ 的因式分解是(价格低廉)可用，该模型可以有效地全局极小化。由于后者在大规模优化中可能并非如此，我们还考虑计算更便宜和近似的 $m_k$ 的极小点，即某些子空间上 $m_k$ 的全局极小点，这些极小点不涉及 $B_k$ 的显式分解，只涉及矩阵-向量积(见§ 6.2 )。我们的方法是利用Lanczos过程建立 $B_k$ 连续作用于 $g ( x_k )$ 所形成的Krylov子空间的正交基，每个方向k是模型在当前Krylov子空间上的全局极小点。不难看出，当使用我们的任一终止准则时，这种近似最小化三次模型的技术完全被我们的理论结果所涵盖.此外，在ACO算法中使用该方法的Matlab实现的数值经验表明，当在CUTEr 测试集中的所有小的无约束问题上进行测试时，该代码的性能始终优于信赖域实现；详见§ 7和图7.1。在ACO和信赖域实现中均使用精确的Hessian作为 $B_k$ 。

论文的提纲如下：

2.1节介绍了ACO算法，而§ 2.2表明其全局收敛于一阶临界点。3.1节给出了 $R_n$ 上三次模型全局极小值的一个已知刻画的新证明，而§ 3.2节定义了 $R_n$ 的 $m_k$ 个子空间的全局极小值满足的一些更一般的性质。然后，§ 3.3对用于近似最小化三次模型的内迭代给出了一些合适的终止准则。利用§ 3的结果，我们在§ 4.1中证明了ACO算法在局部凸性下的渐近收敛性质，而在§ 4.2中证明了ACO算法至少Q -超线性收敛。在不假设局部凸性的情况下，§ 5给出了迭代序列全局收敛到(弱)二阶临界极限点的条件。第六节讨论了全局最小化三次模型以达到高精度( § 6.1 )以及近似使用Lanczos技巧( § 6.2 )的方法。我们在§ 7和附录A中详述了我们的数值实验，并在§ 8中得出了最终的结论.