梯度下降法与牛顿法

1 梯度下降法

梯度下降法(gradient descent:GD)

梯度: f(θ) θ0 处的梯度表示 f(θ) 在点 θ0 处函数值变化最快的方向。
对于凸函数 f(θ) 来说,沿着负梯度方向寻找可以找到函数的极小值

θk+1=θkηf(θk)

k 表示第k步迭代, η 表示修正因子(步长),因为梯度方向变化最快,只在局部有效
如果对于多维情形,表示为
θk+1=θkηf(θk)

其中
θk=(θk1,θk2,...,θkn)T

f(θk+1)=fθk1fθk2...fθkn

梯度下降法分类

以线性回归举例
对于训练数据集 T={(x(1),y(1)),(x(2),y(2),...,(x(m),y(m))}
采用线性回归模型 h(θ,x)=ni=0θixi n 表示样本的特征个数
损失函数 J(θ)=12mi=1(yih(θ,x(i)))2

批量梯度下降法(Batch gradient descent:BGD)

要使得 J(θ) 取得极小值

J(θ)θj=i=1m(y(i)h(θ,x(i)))x(i)j

在第 k+1 步迭代时
θk+1j=θkj+ηi=1m(y(i)h(θ,x(i)))x(i)j

每次迭代使用全部的样本,即为批量梯度下降法,这样可以使迭代朝着全局最优方向进行,但是如果样本量足够大,则迭代速度比较慢

随机梯度下降法(Stochastic gradient descent:SGD)

相比批量梯度下降法,随机梯度下降法则每次随机选取样本 x(i) 更新参数
在第 k+1 步迭代时

θk+1j=θkj+η(y(i)h(θ,x(i)))x(i)j

相比BGD,SGD的迭代效率更高,但是SGD的噪音可能会比BGD更多,迭代方向并不一定朝着全局最优方向进行,迭代过程可能比较曲折,最终结果往往在全局最优解附近

2 牛顿法

同样考虑凸函数 f(θ) 的极小值最优化问题,
按照泰勒展开,用二次曲面去拟合函数的局部曲面

f(θ+Δθ)=f(θ)+f(θ)Δθ+12f(θ)(Δθ)2

要使左式最小,则对右边求导为0
0=f(θ)+f(θ)Δθ

Δθ=f(θ)f(θ)

从而迭代过程
θk+1=θkf(θ)f(θ)

对于多维情形,一阶导变成梯度向量,二阶导变成海森矩阵

牛顿法虽然收敛速度比较快,但是计算海森矩阵时,计算量特别大,从而演化除了拟牛顿法,思想是对海森矩阵以及海森矩阵的拟取近似值,减小计算量,包括DFP算法, BFGS算法, L-BFGS算法

3 牛顿法与梯度下降法关系

对于梯度下降法,需要确定步长 η ,其决定了梯度下降法的表现

θk+1=θkηf(θk)

同样,对于两个式子
f(θ+Δθ)=f(θ)+f(θ)Δθ(3.1)

Δθ=ηf(θ)(3.2)

将式(3.2)代入式(3.1)
f(θ+Δθ)=f(θ)ηf(θ)f(θ)

令左边式子等于0
η=1f(θ)

由此可见,牛顿下降法是梯度下降的最优情况

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值