梯度下降原理推导

方向导数

l l 是xoy平面上以(x0,y0)为始点的一条射线, el=(cosα,cosβ) e l = ( c o s α , c o s β ) 是与 l l 同方向的单位向量,射线l的参数方程为

x=x0+tcosα x = x 0 + t c o s α
y=y0+tcosβ y = y 0 + t c o s β
t0 t ⩾ 0

设函数 z=f(x,y) z = f ( x , y ) 在点 P0(x0,y0) P 0 ( x 0 , y 0 ) 的某个领域 U(P0) U ( P 0 ) 内有定义, P(x0+tcosα,y0+tcosβ) P ( x 0 + t c o s α , y 0 + t c o s β ) l l 上的另一点,且PU(P0)。如果函数增量与点 P P 到点P0的距离比值
f(x0+tcosα,y0+tcosβ)f(x0,y0)t f ( x 0 + t c o s α , y 0 + t c o s β ) − f ( x 0 , y 0 ) t
P P 沿着l趋向于 P0(t0+) P 0 ( 即 t → 0 + ) 时的极限存在,则称此极限为函数 f(x,y) f ( x , y ) 在点 P0 P 0 沿方向 l l 的方向倒数,即
fl(x0,y0)=limt0+f(x0+tcosα,y0+tcosβ)f(x0,y0)t

证明: f(x,y) f ( x , y ) 在点 P0(x0,y0) P 0 ( x 0 , y 0 ) 可微分,那么函数在该点沿任意方向导数 l l 都存在,且有
fl(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ

证:由假设,函数 f(x,y) f ( x , y ) 在点 (x0,y0) ( x 0 , y 0 ) 可微分,故有
f(x0+Δxy0+Δy)f(x0,y0)=fx(x0,y0)Δx+fy(x0,y0)Δy+o((Δx)2+(Δy)2) f ( x 0 + Δ x , y 0 + Δ y ) − f ( x 0 , y 0 ) = f x ( x 0 , y 0 ) Δ x + f y ( x 0 , y 0 ) Δ y + o ( ( Δ x ) 2 + ( Δ y ) 2 )

在方向 l l 上,有Δx=tcosα,Δy=tcosβ,(Δx)2+(Δy)2=t
fl(x0,y0)=limt0+f(x0+tcosα,y0+tcosβ)f(x0,y0)t=fx(x0,y0)cosα+fy(x0,y0)cosβ ∂ f ∂ l ∣ ( x 0 , y 0 ) = lim t → 0 + f ( x 0 + t c o s α , y 0 + t c o s β ) − f ( x 0 , y 0 ) t = f x ( x 0 , y 0 ) c o s α + f y ( x 0 , y 0 ) c o s β

梯度

二元函数的情形下,设函数 f(x,y) f ( x , y ) 在平面区域D中具有一阶连续偏导数,则对于每一点 P0(x0,y0)D P 0 ( x 0 , y 0 ) ∈ D ,都可定出一个向量

fx(x0,y0)i+fy(x0,y0)j f x ( x 0 , y 0 ) i + f y ( x 0 , y 0 ) j
这向量称为函数 f(x,y) f ( x , y ) 在点 P0(x0,y0) P 0 ( x 0 , y 0 ) 的梯度,记为 f(x0,y0) ∇ f ( x 0 , y 0 )
fl(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ=f(x0,y0)el=|f(x0,y0)|cosθ ∂ f ∂ l ∣ ( x 0 , y 0 ) = f x ( x 0 , y 0 ) c o s α + f y ( x 0 , y 0 ) c o s β = ∇ f ( x 0 , y 0 ) ⋅ e l = | ∇ f ( x 0 , y 0 ) | c o s θ

θ=(f(x0,y0),^el) θ = ( ∇ f ( x 0 , y 0 ) , ^ e l )

因此得出结论:
θ=0 θ = 0 时,即单位向量 el e l 的方向与梯度方向相同,函数 f(x,y) f ( x , y ) 增加最快,函数在这个方向的方向导数达到最大值 fl(x0,y0)=|f(x0,y0)| ∂ f ∂ l ∣ ( x 0 , y 0 ) = | ∇ f ( x 0 , y 0 ) | ;当 θ=π θ = π 时,即单位向量 el e l 的方向与梯度方向相反,函数 f(x,y) f ( x , y ) 减小最快,函数在这个方向的方向导数达到最小值 fl(x0,y0)=|f(x0,y0)| ∂ f ∂ l ∣ ( x 0 , y 0 ) = − | ∇ f ( x 0 , y 0 ) |

梯度下降优化

对参数 xy x 和 y 进行优化,从而使得 f(x,y) f ( x , y ) 得到最小值

对于每一次优化, (x,y) ( x , y ) 都会向当前减小最快的方向移动。首先计算 (x0,y0) ( x 0 , y 0 ) 点的梯度 f(x0,y0) ∇ f ( x 0 , y 0 )

f(x0,y0)=fx(x0,y0)i+fy(x0,y0)j ∇ f ( x 0 , y 0 ) = f x ( x 0 , y 0 ) i + f y ( x 0 , y 0 ) j
(x0,y0) ( x 0 , y 0 ) 沿梯度方向移动 η|f(x0,y0)| η | ∇ f ( x 0 , y 0 ) | 的距离,其中 η η 是学习率,用于控制参数移动的多少。对应于:
x:xηfx(x0,y0) x : x − η f x ( x 0 , y 0 )
y:yηfy(x0,y0) y : y − η f y ( x 0 , y 0 )

通过每一次的优化,参数 xy x 和 y 就会逐渐移动到 f(x,y) f ( x , y ) 最低点

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值