一、梯度下降算法
引言
我们知道在学习深度学习中,为了使我们具有最小的损失的网络,使其输出值与目标值尽可能地接近,使损失函数最小化。从而我们引入了梯度下降算法,它可以使我们得到一个最小值的目标损失函数。对于我们看到的任何一个模型,他都有自己损失函数。在学习简单线性回归时,既y=w*x,我们使用最小二乘法来求损失函数的最小值。但是在绝大多数的情况下,损失函数是很复杂的,例如如果出现y=(w1+w2)*x复杂情况时,根本无法得到参数估计值的表达式。因此需要一种对大多数函数都适用的方法。这就引出了“梯度算法”。
梯度下降算法,其作用是用来对原始模型的损失函数进行优化,以便寻找到最优的参数,使得损失函数的值最小。
深刻理解梯度下降算法
那么我们怎样来理解它呢,在我看来梯度下降可以将它分成两部分,即梯度和下降。
所谓梯度,我的理解是它该点的导数。我们可以从数学角度去看待它。以下为导数的定义式。下降,顾名思义,去找下降的方向。
我们以下列的图为例,在该点处,往右时,我们f(x+△x) - f(x)>0,默认△x>0。此时我们的导数为正,函数为增函数,向上升的地方走去。往左时,f(x+△x) - f(x)<0,同理可得,函数往下降的方向走去。是我们目标的方向。
而在我们更新权重的方法,就是以下方法。其中w为权重,a为学习率,学习率相当于步长。学习率是一个需要调整的超参数。
- 太小会使得训练速度过慢,很长时间都不能结束。
- 太大会使得训练无法收敛。可能会跳过我们需要的最优解,因此需要很小心的调节学习速率
梯度下降算法示例
- 选择训练样本x_data和对应目标y_data组成的数据批量。
- 定义模型以及进行前向传播得到预测值y_pried。
- 计算网络在这批数据上的损失,用于衡量y_pried和y的距离。
- 更新网络所有权重。
import numpy as np
import matplotlib.pyplot as plt
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
w = 1.0
def forward(x):
return w * x
def cost(xs, ys):
cost = 0
for x, y in zip(xs, ys):
y_pried = forward(x)
cost += (y_pried - y) ** 2
return cost / len(xs)
def gradient(xs, ys):
grad = 0
for x, y in zip(xs, ys):
grad += 2 * x * (x * w - y)
return grad / len(xs)
cost_list = []
epoh_list = []
print('Predict(before traning)', 4, forward(4))
for epoh in range(100):
epoh_list.append(epoh)
cost_val = cost(x_data, y_data)
grad_val = gradient(x_data, y_data)
cost_list.append(cost_val)
w -= 0.01 * grad_val
print('Epoh:', epoh, 'w=', w, 'loss=', cost_val)
print('Predict(after traning', 4, forward(4))
plt.plot(epoh_list, cost_list)
plt.ylabel('cost')
plt.xlabel('epoh')
plt.show()
结果:
随机梯度下降算法
一般来说,梯度下降算法只能解决局部最优问题,无法解决全局最优,我们日常很少用到。比如下图模型。由此我们引入了随机梯度下降算法(SGD)。
随机梯度下降他本质就是在全局随机寻找一组组样本去训练,随机的决定下次权重w的变化趋势。