优化算法小结

对比梯度下降,牛顿法,高斯牛顿

梯度下降
实质是使用了雅克比矩阵(一阶导数矩阵)
优点:简单,
缺点:1、取得的是极小值,所以只有在凸函数上才可能找到全局最小。
2、与初始值设定有关,若初始值选取不当,需要迭代很多次
3、与步长有关,步长设置不当可能会形成震荡
4、收敛较慢

牛顿法
实质是在梯度下降的基础上进一步考虑了二阶项,即Hessian矩阵(二阶导数矩阵)。
通俗的说,牛顿法迭代优化时既利用了梯度,又利用了梯度变化的速度(二阶导数)的信息。

缺点:高维度下计算Hessian矩阵需要消耗很大的计算量,很多时候无法计算。

注:在牛顿法中,Hessian矩阵可逆且正定。

高斯牛顿法
高斯牛顿法在牛顿法基础上解决Hessian矩阵难计算的问题。思想是用雅克比矩阵的乘积近似代替Hessian矩阵。即J(x)TJ(x)

缺点:1、这样近似的矩阵一般不满足Hessian矩阵正定且可逆,会导致稳定性很差,算法不收敛。
2、只可在小范围内近似,若步长选取较大,近似将不再准确,导致算法不收敛。

LM算法

在高斯牛顿法基础上进一步优化,使用J(x)TJ(x)+uI(I是单位阵)来近似Hessian矩阵。其中u是一个非负可变量。如果 u 取值较大时,uI 占主要地位,此时的LM算法更接近一阶梯度下降法,说明此时距离最终解还比较远,用一阶近似更合适。反之,如果 u 取值较小时,H 占主要地位,说明此时距离最终解距离较近,用二阶近似模型比较合适,可以避免梯度下降的“震荡”,容易快速收敛到极值点。因此参数 u 不仅影响到迭代的方向还影响到迭代步长的大小。

LM采用的搜索方法是信赖域(Trust Region)方法,和梯度下降、牛顿法、高斯牛顿法采用的线性搜索(Line Search)方法不同。

为什么要用信赖域呢?这是因为高斯牛顿法中采用近似二阶泰勒函数只在展开点附近有较好的近似效果,如果步长太大近似就不准确,因此我们应该给步长加个信赖区域,在信赖区域里,我们认为近似是有效的,出了这个区域,近似会出问题。

LM算法比高斯牛顿法更加鲁棒,但收敛速度变慢。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值