机器学习 牛顿法

参见https://blog.csdn.net/itplus/article/details/21896453

一.牛顿法

参见:https://zhuanlan.zhihu.com/p/33544363

1.概念:

"牛顿法"(Newton's method)1种启发式的迭代算法,用于求解非线性最优化问题.其基本思想是:开始时随机选择1组参数(θ1,θ2...θn),在
该点处用多项式(下文均以2次为例)拟合目标函数,然后移动到该多项式的极值点处,并不断重复上述过程直到收敛.需要注意的是:仅当目标函数为
凸函数时梯度下降能保证找到全局最优解;其他情况下可能停留在驻点/无法收敛

在这里插入图片描述
2.一般形式:

假设 H ( J ′ ( θ k ; x j ) ) H(J'(θ^k;x_j)) H(J(θk;xj))非奇异,则将参数更新规则修正为 θ k + 1 = θ = θ k − α H − 1 ( J ′ ( θ k ; x j ) ) ∇ J ( θ k ; x j ) θ^{k+1}=θ=θ^k-αH^{-1}(J'(θ^k;x_j))\nabla{J(θ^k;x_j)} θk+1=θ=θkαH1(J(θk;xj))J(θk;xj)其中α为学习率,后文均以 α = 1 α=1 α=1为例.其搜索方向 d k = − H − 1 ( J ′ ( θ k ; x j ) ) ∇ J ( θ k ; x j ) d_k=-H^{-1}(J'(θ^k;x_j))\nabla{J(θ^k;x_j)} dk=H1(J(θk;xj))J(θk;xj)称为牛顿方向(Newton Direction)

3.推导:

J ( θ ; x j ) J(θ;x_j) J(θ;xj)二阶连续可导,将其在 θ k θ^k θk处泰勒展开得到 J ( θ ; x j ) = J ( θ k ; x j ) + ∇ J ( θ k ; x j ) T ( θ − θ k ) + ( θ − θ k ) T H ( J ′ ( θ k ; x j ) ) ( θ − θ k ) 2 + R 2 ( θ ) J(θ;x_j)=J(θ^k;x_j)+\nabla{J(θ^k;x_j)}^T(θ-θ^k)+\frac{(θ-θ^k)^TH(J'(θ^k;x_j))(θ-θ^k)}{2}+R_2(θ) J(θ;xj)=J(θk;xj)+J(θk;xj)T(θθk)+2(θθk)TH(J(θk;xj))(θθk)+R2(θ)从而有 ∇ J ( θ ; x j ) ≈ ∇ J ( θ k ; x j ) + H ( J ′ ( θ k ; x j ) ) ( θ − θ k ) \nabla{J(θ;x_j)}≈\nabla{J(θ^k;x_j)}+H(J'(θ^k;x_j))(θ-θ^k) J(θ;xj

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值