高数基础——步长

目录

1,什么是步长?

 2,步长(​)怎么取?

(1)Armijo conditions(充分下降条件)

(2)curvature condition(​不要取得太小)

(3)Wolfe conditions


1,什么是步长?

在确定了搜索方向P_{k}的情况下,讨论搜索步长\alpha _{k},希望对下述函数求最小值

\Phi (\alpha )=f(x_k+\alpha{P_k})

直接求解上述函数的最小值的方法叫做精确线搜索(公式解),然而这需要耗费大量的计算,所以我们一般采用非精确线搜索(可能不是最小值,但差不多)inexact line search

(1)函数应当有充分的下降

(2)步长不宜太小

【1】STEPS MIGHT BE TOO LONG --- 步长太大,会出现震荡现象

 【2】STEPS MIGHT BE TOO SHORT --- 步长太小会走不出去,提前收敛(\alpha _k\rightarrow 0

 2,步长(\alpha)怎么取?

(1)Armijo conditions(充分下降条件)

首先,我们希望目标函数值能够有足够的下降(sufficient decrease)

f(x_k+\alpha P_k)\leq f(x_k)+C_1\alpha \bigtriangledown{f_k^TP_k}

常数C_1\in (0,1)。将上述条件称为Armijo条件,不等式的右边记为l(\alpha ),是一个斜率为C_1\alpha \bigtriangledown{f_k^TP_k}< 0的线性函数,从而Armijo条件意味着

\Phi (\alpha )\leq l(\alpha)

实际应用中,我们一般将C_1取得很小,例如C_1=10^{-4}不要太小,只要是下降的就可以了

线性函数下面的部分是可取范围

\alpha(learning rate)取小就可以取到一个局部最优解

斜率C_1(loss.backward)不要太小,不然只能取到局部最优,取不到{\color{Red}\textcircled{2} }

note:梯度是某一点的导数,斜率是一阶线性函数的导数,高阶函数没有’斜率‘只有导数

(2)curvature condition(\alpha不要取得太小)

 当\alpha取得很小的时候,Armijo条件成立,但是这并不是理想的步长,所以我们引入curvature condition,即

\bigtriangledown{f(x_k+\alpha{P_k})^T}P_k\geq C_2\bigtriangledown{f_k^T}P_k

{\color{Red}\Phi '(\alpha )\geq C_2\Phi '(0 ) }

常数C_2\in (C_1,1),不等式的左边恰好是\Phi '(\alpha ),那么上述不等式意味着\Phi '(\alpha )应该要大于C_2\Phi '(0 )

C_2=0.9,when search direction is chosen by Newton(牛顿法:海瑟矩阵估计) or Quasi-Newton(拟牛顿法:用低秩算法迭代的海瑟矩阵估计)

C_2=0.1,when search direction is obtained from nonlinear conjugate gradient method(非线性梯度法)

 \Phi (\alpha )\leq l(\alpha )\rightarrow \alpha _1

 \Phi '(\alpha )\leq{C_2\Phi '(0)}\rightarrow \alpha _2

排除下降的非常快,即\alpha取得很小的部分。留下了变化缓慢和上升的部分。

(3)Wolfe conditions

The sufficient decrease and curvature conditions are known collectively as the Wolfe conditions.

f(x_k+\alpha P_k)\leq f(x_k)+C_1\alpha \bigtriangledown{f_k^TP_k}

\bigtriangledown{f(x_k+\alpha{P_k})^T}P_k\geq C_2\bigtriangledown{f_k^T}P_k

with 0< C_1< C_2< 1

It is not difficult to prove that there exist step lenghts that satisfy the Wolfe conditions for every function f that is smooth and bounded below.---Wolfe condition一定可以搜索到一个备选空间

a "loose" line search C_1=10^{-4} and C_2=0.9

  • 7
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

非零因子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值