非线性优化

最新推荐文章于 2022-06-03 12:55:44 发布

zzyczzyc

最新推荐文章于 2022-06-03 12:55:44 发布

阅读量883

点赞数 1

分类专栏： SLAM

本文链接：https://blog.csdn.net/zzyczzyc/article/details/94600576

版权

文章目录

最速下降法(梯度下降)

定义问题：
对于一个非线性函数 $f(\textbf{x})$ ，目标求： $\min f(\boldsymbol{x}) ， \; \mathbf{x}\in\mathbb{R}^n$
数学理论：

我们需要找到一个下降的方向，使得 $f(\mathbf{x})$ 随着x的迭代而逐渐减小，直到 $\mathbf{x}$ 收敛于 $\mathbf{x^*}$ ：
$f(\mathbf{x_{k+1}})<f((\mathbf{x_k})$
我们需要选择适当的方向 $\mathbf{d}$ 和步长 $\alpha$ ， $f(\mathbf{x_{k}+\alpha\mathbf{d}})<f((\mathbf{x_k})$
将 $f (x)$ 在进行一阶泰勒展开： $f(\boldsymbol{x}+\alpha\mathbf{d}) = f(\mathbf{x})+\alpha\triangledown f(\mathbf{x})^T\mathbf{d}，\triangledown f(\mathbf{x})$ 是 $f (x)$ 的梯度， $\triangledown f(\mathbf{x})^T$ 可以用 $J$ 雅克比代替：
$f(\boldsymbol{x}+\alpha\mathbf{d}) = f(\mathbf{x})+\alpha \mathbf{J} \mathbf{d}$
因为 $\alpha>0$ ，所以 $\mathbf{J} \mathbf{d}<0$ ，有： $\mathbf{J} \mathbf{d}= \parallel \mathbf{J}\parallel \parallel \mathbf{d}\parallel \cos\theta$
当 $\theta$ 取 $-\pi$ 也就是d取负梯度的方向： $-\mathbf{J}^T$ ，到达最小值。
对于 $\alpha$ ，我们在最速下降的方向进行－维的搜索，即 $\alpha$ 满足 $f(\boldsymbol{x_k}+\alpha_k\mathbf{d_k}) = \arg \min_{\alpha\geqslant 0}f(\boldsymbol{x_k}+\alpha\mathbf{d_k})$

算法：

给定初始点 $\mathbf{x_0}$ ，和允许的误差 $\varepsilon>0$ ，置 $k = 0$ ；
计算搜索方向 $\mathbf{d_k}=- \triangledown f(\mathbf{x_k})$ ；
若 $\parallel\mathbf{d_k}\parallel\leqslant\varepsilon$ ，则停止；否则从 $\boldsymbol{x_k}$ 出发，沿着 $\mathbf{d_k}$ 进行一维的搜索，求出 $\alpha_k$ 使得： $f(\boldsymbol{x_k}+\alpha_k\mathbf{d_k}) = \arg \min_{\alpha\geqslant 0}f(\boldsymbol{x_k}+\alpha\mathbf{d_k})$
令 $\mathbf{x_{k+1}}=\mathbf{x_k}+\alpha_k\mathbf{d_k}$ ，置 $k = k + 1$ ，转步骤2；

算法评价：

缺点：

因为每次迭代的梯度方向和下一次的梯度方向是正交的，当到了最优值的附近，震动收敛慢。
另外，如果 $f (x)$ 的海森矩阵正定，最大和最小特征值的比 $r=\frac{A}{a}$ 称为条件数，条件数越小，收敛越快，相反则慢。

Trick：

一般最大特征值和最小特征值和数据维度里面的数据Scale有关，也就是说可能是因为数据的量级差的比较多，这时候可以通过Scale进行数据的缩放，来达到收敛更快的效果。

例题：参考最优化理论和算法p283,例10.1.1

牛顿法－>阻尼牛顿->修正阻尼牛顿

定义问题：
对于一个非线性函数 $f(\textbf{x})$ ，目标求： $\min f(\boldsymbol{x}) ， \; \mathbf{x}\in\mathbb{R}^n$
数学理论：

将 $f(\textbf{x})$ 进行二阶泰勒展开：
$f(\boldsymbol{x}+\Delta \mathbf{x}) = f(\mathbf{x})+J\Delta\mathbf{x}+\frac{1}{2}\Delta \mathbf{x}^TH\Delta \mathbf{x}\tag{1}$
在 $\mathbf{x_k}$ 处，求 $\Delta\mathbf{x_k}＝\arg \min_{\Delta\mathbf{x}} f(\mathbf{x_k}+\Delta\mathbf{x})$
让二次的1式对 $\Delta\mathbf{x}$ 求导，并令其为０，得到稳定点：
$J^T+H\Delta \mathbf{x}=0\tag{2}$
得到 $\Delta\mathbf{x_k}=-H^{-1}J^T$

注意，在局部最优解的附近， $\boldsymbol{x}+\Delta \mathbf{x}$ 是最优解，但是当初始点远离极小点的时候，牛顿法可能不收敛，原因之一牛顿方向： $\Delta\mathbf{x_k}=-H^{-1}J^T$ 不一定是下降的方向，目标值有可能上升。因此对牛顿法提出了修正，提出阻尼牛顿法

阻尼牛顿法在原始的牛顿法的基础上添加：沿着牛顿方向进行一维的搜索

最低0.47元/天解锁文章

zzyczzyc

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
非线性优化

文章目录最速下降法(梯度下降)牛顿法高斯牛顿法列文伯格-马夸尔特鲁棒核函数最速下降法(梯度下降)定义问题：对于一个非线性函数f(x)f(\textbf{x})f(x)，目标求：min⁡f(x)，&ThickSpace;x∈Rn\min f(\boldsymbol{x}) ， \; \mathbf{x}\in\mathbb{R}^nminf(x)，x∈Rn解法：我们需...
复制链接

扫一扫

专栏目录