1 梯度下降法
梯度下降法(gradient descent:GD)
梯度:
f(θ)
在
θ0
处的梯度表示
f(θ)
在点
θ0
处函数值变化最快的方向。
对于凸函数
f(θ)
来说,沿着负梯度方向寻找可以找到函数的极小值
θk+1=θk−ηf′(θk)
k 表示第
如果对于多维情形,表示为
θk+1=θk−η∇f(θk)
其中
θk=(θk1,θk2,...,θkn)T
∇f(θk+1)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢∂f∂θk1∂f∂θk2...∂f∂θkn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥
梯度下降法分类
以线性回归举例
对于训练数据集
T={(x(1),y(1)),(x(2),y(2),...,(x(m),y(m))}
采用线性回归模型
h(θ,x)=∑ni=0θixi
n
表示样本的特征个数
损失函数
J(θ)=12∑mi=1(yi−h(θ,x(i)))2
批量梯度下降法(Batch gradient descent:BGD)
要使得
J(θ)
取得极小值
∂J(θ)∂θj=−∑i=1m(y(i)−h(θ,x(i)))x(i)j
在第 k+1 步迭代时
θk+1j=θkj+η∑i=1m(y(i)−h(θ,x(i)))x(i)j
每次迭代使用全部的样本,即为批量梯度下降法,这样可以使迭代朝着全局最优方向进行,但是如果样本量足够大,则迭代速度比较慢
随机梯度下降法(Stochastic gradient descent:SGD)
相比批量梯度下降法,随机梯度下降法则每次随机选取样本
x(i)
更新参数
在第
k+1
步迭代时
θk+1j=θkj+η(y(i)−h(θ,x(i)))x(i)j
相比BGD,SGD的迭代效率更高,但是SGD的噪音可能会比BGD更多,迭代方向并不一定朝着全局最优方向进行,迭代过程可能比较曲折,最终结果往往在全局最优解附近
2 牛顿法
同样考虑凸函数
f(θ)
的极小值最优化问题,
按照泰勒展开,用二次曲面去拟合函数的局部曲面
f(θ+Δθ)=f(θ)+f′(θ)Δθ+12f″(θ)(Δθ)2
要使左式最小,则对右边求导为0
0=f′(θ)+f″(θ)Δθ
Δθ=−f′(θ)f″(θ)
从而迭代过程
θk+1=θk−f′(θ)f″(θ)
对于多维情形,一阶导变成梯度向量,二阶导变成海森矩阵
牛顿法虽然收敛速度比较快,但是计算海森矩阵时,计算量特别大,从而演化除了拟牛顿法,思想是对海森矩阵以及海森矩阵的拟取近似值,减小计算量,包括DFP算法, BFGS算法, L-BFGS算法
3 牛顿法与梯度下降法关系
对于梯度下降法,需要确定步长
η
,其决定了梯度下降法的表现
θk+1=θk−ηf′(θk)
同样,对于两个式子
f′(θ+Δθ)=f′(θ)+f″(θ)Δθ(3.1)
Δθ=−ηf′(θ)(3.2)
将式(3.2)代入式(3.1)
f′(θ+Δθ)=f′(θ)−ηf′(θ)f″(θ)
令左边式子等于0
η=1f″(θ)
由此可见,牛顿下降法是梯度下降的最优情况