Levenberg–Marquardt(LM)

1、基础概念

1.1、信赖域法

    在最优化算法中,都是要求一个函数的极小值,每一步迭代中,都要求目标函数值是下降的,而信赖域法,顾名思义,就是从初始点开始,先假设一个可以信赖的最大位移 s,然后在以当前点为中心,以 s 为半径的区域内,通过寻找目标函数的一个近似函数(二次的)的最优点,来求解得到真正的位移。在得到了位移之后,再计算目标函数值,如果其使目标函数值的下降满足了一定条件,那么就说明这个位移是可靠的,则继续按此规则迭代计算下去;如果其不能使目标函数值的下降满足一定的条件,则应减小信赖域的范围,再重新求解。其数学模型如下所示:

       { m i n m k ( s ) = f k + g k T s + 1 2 s T G k s s . t . ∣ ∣ s ∣ ∣ ≤ h k \left\{\begin{matrix} min &m_k(s)=f_k+{g_k}^Ts +\frac{1}{2}s^TG_ks & \\ s.t. & ||s|| \leq h_k& \end{matrix}\right. { mins.t.mk(s)=fk+gkTs+21sTGksshk

其中,第一个式子就是我们用于模拟目标函数的二次模型,其自变量为 s,也就是我们要求的位移。 g k g_k gk 为梯度, G k G_k Gk 为Hesse矩阵,袁亚湘的书上说,如果Hesse矩阵不好计算,可以利用“有限差分”来近似 G k G_k Gk, 或者用拟牛顿方法来构造Hesse矩阵的近似矩阵。
第二个式子中的 h k h_k hk 是第 k 次迭代的信赖域上界(或称为信赖域半径),因此第二个式子表示的就是位移要在信赖域上界范围内。
    通过衡量二次模型与目标函数的近似程度,可以作出判定是否需要扩大信了:

  • 第 k 次迭代的实际下降量为: Δ f k = f k − f ( x k + s k ) Δf_k=f_k−f(x_k+s_k) Δfk=fkf(xk+sk)
  • 第 k 次迭代的预测下降量为: Δ m k = f k − m ( s k ) Δm_k=f_k−m(s_k) Δmk=fkm(sk)

定义比值: r k = Δ f k Δ m k r_k=\frac{Δf_k}{Δm_k} rk=ΔmkΔfk

这个比值可以用于衡量二次模型与目标函数的近似程度,显然 r 值越接近1越好。

1.2、泰勒展开

    泰勒公式是一个用函数在某点的信息描述其附近取值的公式。如果函数满足一定的条件,泰勒公式可以用函数在某一点的各阶导数值做系数构建一个多项式来近似表达这个函数。

        f ( x ) = ∑ i = 0 n f ( i ) ( x 0 ) i ! ( x − x 0 ) i f(x)=\sum_{i=0}^{n}\frac{f^{(i)}(x_0)}{i!}(x-x_0)^i f(x)=i=0nif(i)(x0)(xx0)i

其中, x ∈ ( x 0 − Δ x , x 0 + Δ x ) x∈(x_0-\Delta x,x_0+\Delta x) x(x0Δx,x0+Δx)

1.2、正定矩阵(positive definite matrix)

(1)广义定义
   设M是n阶方阵,如果对任何非零向量z,都有 z T M z > 0 z^TMz> 0 zTMz>0,其中 z T z^T zT 表示z的转置,就称M为正定矩阵。
例如:B为n阶矩阵,E为单位矩阵,a为正实数。在a充分大时,aE+B为正定矩阵。(B必须为对称阵)。

(2)狭义定义
   一个n阶的实对称矩阵M是正定的的条件是当且仅当对于所有的非零实系数向量z,都有 z T M z > 0 z^TMz> 0 zTMz>0。其中zT表示z的转置。

(3)正定矩阵的性质

  • 正定矩阵的行列式恒为正;
  • 实对称矩阵A正定当且仅当A与单位矩阵合同;
  • 若A是正定矩阵,则A的逆矩阵也是正定矩阵;
  • 两个正定矩阵的和是正定矩阵;
  • 正实数与正定矩阵的乘积是正定矩阵。

(4)正定矩阵的特征

  • 对称阵A为正定的充分必要条件是:A的特征值全为正。
  • 对称阵A为正定的充分必要条件是:A的各阶顺序主子式都为正。
  • 任意阵A为正定的充分必要条件是:A合同于单位阵。

1.3、雅克比矩阵(Jacobian matrix)

   在向量分析中,雅可比矩阵是函数的一阶偏导数以一定方式排列成的矩阵,其行列式称为雅可比行列式。在代数几何中,代数曲线的雅可比行列式表示雅可比簇:伴随该曲线的一个代数群,曲线可以嵌入其中。它们全部都以数学家卡尔·雅可比命名;
   假设某函数从 R n R^n Rn 映到 R m R^m Rm, 其雅可比矩阵是从 R n R^n Rn R m R^m Rm的线性映射,其重要意义在于它表现了一个多变数向量函数的最佳线性逼近。因此,雅可比矩阵类似于单变数函数的导数。
   假设 R n → R m R^n\rightarrow R^m RnRm 是一个从n维欧氏空间映射到到m维欧氏空间的函数。这个函数由m个实函数组成: y 1 ( x 1 , . . . , x n ) , . . . , y m ( x 1 , . . . , x n ) y_1(x_1,...,x_n),...,y_m(x_1,...,x_n) y1(x1,...,xn),...,ym(x1,...,xn)。这些函数的偏导数(如果存在)可以组成一个m行n列的矩阵,这个矩阵就是所谓的雅可比矩阵:
       ( ∂ y 1 ∂ x 1 . .

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值