1.梯度下降(Gradient Descent)、批量梯度下降(Batch Gradient Descent,简称BGD)与随机梯度下降(Stochastic Gradient Descent,简称SGD):自变量向着梯度反方向移动,可以减小函数值。
一维:
x
←
x
−
η
f
′
(
x
)
x\leftarrow x-\eta f'(x)
x←x−ηf′(x)
多维:
x
←
x
−
η
∇
f
(
x
)
\bf{x\leftarrow x-\eta} \nabla \bf{f(x)}
x←x−η∇f(x)
其中,
η
\eta
η是学习率。
缺点:会出现收敛到局部极小值的问题。
这里的
f
f
f或
f
\bf f
f是模型中的损失函数,而
x
x
x或
x
\bf x
x是模型中的参数。如果是针对所有样本计算损失函数再优化参数,算法叫做批量梯度下降法;如果是针对每一个样本计算损失函数,然后优化参数,算法叫做随机梯度下降法。
2.牛顿法:
一维:
x
←
x
−
η
f
′
(
x
)
f
"
(
x
)
x\leftarrow x-\eta \frac{f'(x)}{f"(x)}
x←x−ηf"(x)f′(x)
多维:
x
←
x
−
η
H
f
−
1
∇
f
(
x
)
\bf{x\leftarrow x-\eta H^{-1}_f\nabla f(x)}
x←x−ηHf−1∇f(x)
其中,
η
\eta
η是学习率,
H
f
\bf{H_f}
Hf是函数
f
(
x
)
\bf{f(x)}
f(x)的Heissan矩阵。
优点:梯度下降“步幅”的确定比较困难,而牛顿法相当于可以通过Hessian矩阵来调整“步幅”。
缺点:会出现收敛到局部极小值的问题。
3.动态学习率的随机梯度下降:其学习率是随时间动态变化的,不是常量。
一维:
x
←
x
−
η
(
t
)
f
′
(
x
)
x\leftarrow x-\eta (t) f'(x)
x←x−η(t)f′(x)
多维:
x
←
x
−
η
(
t
)
∇
f
(
x
)
\bf{x\leftarrow x-\eta (t)} \nabla \bf{f(x)}
x←x−η(t)∇f(x)
其中,
η
(
t
)
\eta (t)
η(t)是学习率,学习率的设计方法:
η
(
t
)
=
η
i
if
t
i
≤
t
≤
t
i
+
1
piecewise constant
η
(
t
)
=
η
0
⋅
e
−
λ
t
exponential
η
(
t
)
=
η
0
⋅
(
β
t
+
1
)
−
α
polynomial
\begin{array}{ll}{\eta(t)=\eta_{i} \text { if } t_{i} \leq t \leq t_{i+1}} & {\text { piecewise constant }} \\ {\eta(t)=\eta_{0} \cdot e^{-\lambda t}} & {\text { exponential }} \\ {\eta(t)=\eta_{0} \cdot(\beta t+1)^{-\alpha}} & {\text { polynomial }}\end{array}
η(t)=ηi if ti≤t≤ti+1η(t)=η0⋅e−λtη(t)=η0⋅(βt+1)−α piecewise constant exponential polynomial
第一种方法:可以自己指定不同时间段的学习率,开始的时候可以设计得很大,让其加速收敛,然后逐渐减小,避免震荡。
第二种方法:采用指数衰减。
第三种方法:采用多项式衰减。
4.小批量随机梯度下降(mini-batch-GD,简称MBGD):批量梯度下降是针对全部训练样本计算所得的损失函数计算关于参数的梯度,然后通过上述迭代公式优化参数值;小批量随机梯度下降,是先将训练样本分成一批一批的(一批样本的个数一般大于1,如果等于1就是随机梯度下降),在一次训练循环(epoch)中,先计算完一批样本的损失函数关于参数的梯度,通过迭代公式优化参数值,然后再利用下一批样本优化参数,所有批次的样本都使用过后,这一次训练循环(epoch)才结束。因此,它采用的优化参数的迭代公式与批量梯度下降一致。
梯度下降
最新推荐文章于 2023-03-14 14:46:49 发布