优化算法小结

最新推荐文章于 2023-06-14 07:31:09 发布

yang__x

最新推荐文章于 2023-06-14 07:31:09 发布

阅读量596

点赞数

文章标签：优化算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang__x/article/details/102551692

版权

对比梯度下降，牛顿法，高斯牛顿

梯度下降
实质是使用了雅克比矩阵(一阶导数矩阵)
优点：简单，
缺点：1、取得的是极小值，所以只有在凸函数上才可能找到全局最小。
2、与初始值设定有关，若初始值选取不当，需要迭代很多次
3、与步长有关，步长设置不当可能会形成震荡
4、收敛较慢

牛顿法
实质是在梯度下降的基础上进一步考虑了二阶项，即Hessian矩阵(二阶导数矩阵)。
通俗的说，牛顿法迭代优化时既利用了梯度，又利用了梯度变化的速度（二阶导数）的信息。

缺点：高维度下计算Hessian矩阵需要消耗很大的计算量，很多时候无法计算。

注：在牛顿法中，Hessian矩阵可逆且正定。

高斯牛顿法
高斯牛顿法在牛顿法基础上解决Hessian矩阵难计算的问题。思想是用雅克比矩阵的乘积近似代替Hessian矩阵。即J(x)TJ(x)

缺点：1、这样近似的矩阵一般不满足Hessian矩阵正定且可逆，会导致稳定性很差，算法不收敛。
2、只可在小范围内近似，若步长选取较大，近似将不再准确，导致算法不收敛。

在高斯牛顿法基础上进一步优化，使用J(x)TJ(x)+uI(I是单位阵)来近似Hessian矩阵。其中u是一个非负可变量。如果 u 取值较大时，uI 占主要地位，此时的LM算法更接近一阶梯度下降法，说明此时距离最终解还比较远，用一阶近似更合适。反之，如果 u 取值较小时，H 占主要地位，说明此时距离最终解距离较近，用二阶近似模型比较合适，可以避免梯度下降的“震荡”，容易快速收敛到极值点。因此参数 u 不仅影响到迭代的方向还影响到迭代步长的大小。

LM采用的搜索方法是信赖域（Trust Region）方法，和梯度下降、牛顿法、高斯牛顿法采用的线性搜索（Line Search）方法不同。

为什么要用信赖域呢？这是因为高斯牛顿法中采用近似二阶泰勒函数只在展开点附近有较好的近似效果，如果步长太大近似就不准确，因此我们应该给步长加个信赖区域，在信赖区域里，我们认为近似是有效的，出了这个区域，近似会出问题。

LM算法比高斯牛顿法更加鲁棒，但收敛速度变慢。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

yang__x CSDN认证博客专家 CSDN认证企业博客

码龄5年

12: 原创

81万+: 周排名

214万+: 总排名

8726: 访问

: 等级

198: 积分

1: 粉丝

3: 获赞

5: 评论

16: 收藏

私信

关注

热门文章

分类专栏

C++ 1篇
SLAM 2篇
private
leetcode 5篇
工具 1篇

最新评论

Cube_Slam
GRF-Sunomikp31: 可以参考：https://blog.csdn.net/qq_44847636/article/details/125899174
Cube_Slam
sunshine123S: 请问eigen安装的是哪个版本的？
Cube_Slam
Augusthyq: 请问你现在跑成功了吗
Cube_Slam
小白升级中: 请问后面的orb_object_slam有跑成功吗？
leet刷题小菜鸡-47.字母异位词分组
ctotalk: 努力奋斗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。