梯度下降学习率的优化

一. 问题描述

令目标函数为 f(x) ,当前点为 xk ,当前搜索方向为 dk ,我们把学习率 α 看做变量,不妨设:

h(α)=f(xk+αdk),a>0

现在问题变成求 h(α) 的最小值,假设 h(α) 可导,则有:
h(α)=f(xk+αdk)(xk+αdk)dk

二. 学习率函数 h(α) 的分析

由导数的性质知道,局部最小值处满足 h(α)=0
α=0 代入,得:

h(0)=f(xk)xkdk

不妨取 dk 为负梯度,即 dk=f(xk)xk ,则有:
h(0)=(f(xk)xk)20

如果能够找到足够大的 α ,使得 h(α)>0 ,则必存在某个值 α0 ,使得 h(α0)=0 α0 即为要寻找的学习率
1. 二分线性搜索
2. 回溯线性搜索
3. Armijo 准则
f(xk+αdk)f(xk)+c1αf(xk)xkdk,0<c1<1

4. 二项插值法
f(x)=f(a)f(0)af(0)a2x2+f(0)x+f(0) 可得 h(α) 的近似函数为:
hq(α)=h(α0)h(0)α0h(0)α20α2+h(0)α+h(0)

可得,最优值为:
α=h(0)α202(h(0)α0+h(0)h(α0))

如有错误请指正

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值