本文链接：https://blog.csdn.net/ws_20100/article/details/49754945

我们考虑一个代价函数 $C$ ，这个函数可以将一个参数向量 $\theta$ 映射到一个标量 $C(\theta)$ 上，现在，我们要最小化 $C(\theta)$ 。在机器学习中，这个代价函数通常是损失函数的平均值或者期望值：

C (θ) = 1 n \sum i = 1 n L (f θ, z i)

$C(\theta) = \frac{1}{n} \sum_{i=1}^{n} L(f_{\theta},z_i)$ （这个数值被称为训练损失）或者

C (θ) = \int L (f θ, z) P (z) d z

$C(\theta) = \int L(f_{\theta},z)P(z)dz$ （这个数值被称为泛化损失）。其中在监督学习中，我们有

z=(x,y) $z=(x,y)$ 且

fθ(x) $f_{\theta}(x)$ 是参数为

θ $\theta$ 的

y $y$ 的预测值。

梯度

函数 $C$ 关于标量 $\theta$ 的梯度，定义如下形式：

\partial C ( θ ) \partial θ = lim δ θ \to 0 C ( θ + δ θ ) - C ( θ ) δ θ

$\frac{\partial C(\theta)}{\partial \theta} = \lim_{\delta \theta \rightarrow 0} \frac{C(\theta + \delta \theta)-C(\theta)}{\delta \theta}$ 这代表的是，变化

△θ $\triangle \theta$ 引起的函数的变化

△C $\triangle C$ ，其中

△θ $\triangle \theta$ 是一个非常小的值。
当

θ $\theta$ 是一个向量，则梯度

∂C(θ)∂θ $\frac{\partial C(\theta)}{\partial \theta}$ 也是一个向量，其中每个元素是关于

θi $\theta_i$ 的

∂C(θ)∂θi $\frac{\partial C(\theta)}{\partial \theta_i}$ ，其中假设其他参数是固定的，仅仅改变

△θi $\triangle \theta_i$ 并测量函数的变化量

△C $\triangle C$ 。当

△θi $\triangle \theta_i$ 很小的时候，

△C△θi $\frac{\triangle C}{\triangle \theta_i}$ 变为了

∂C(θ)∂θi $\frac{\partial C(\theta)}{\partial \theta_i}$ 。

梯度下降法

我们希望找到一个 $\theta$ 以最小化 $C(\theta)$ 的值。我们可以对其求导：

\partial C ( θ ) \partial θ = 0

$\frac{\partial C(\theta)}{\partial \theta} = 0$ 然后我们找到最小值点(最大值点和马鞍点)，但是通常我们找不到这个方程的解析解。所以我们要使用数值最优化方法。多数的最优化方法是基于 局部下降的：通过对

θ $\theta$ 的迭代调整，减少

C(θ) $C(\theta)$ 的值，直到数值不能继续下降。最终我们可以找到一个局部极小点（幸运地话，可以找到全局极小点）。
在基于梯度的优化方法中，最简单的方法是梯度下降法。它存在很多变型形式，我们先定义 最原始的梯度下降：

θ k + 1 = θ k - ε k \partial C ( θ k ) \partial θ k

$\theta^{k+1} = \theta^{k} - \varepsilon_k \frac{\partial C(\theta^k)}{\partial \theta^k}$ 其中，

θk $\theta^k$ 代表第

k $k$ 次迭代的参数，

εk $\varepsilon_k$ 是一个标量，我们称为 学习率(learning rate)，选取这个值是，我们可以固定、自适应或者根据一个下降方案选择。

随机梯度下降

我们可以发现 $C$ 的公式是一个平均值，是在独立同分布(i.i.d)的样本集上的。为了更快的迭代 $\theta$ ，我们舍去精确的计算，而采用一个样本：

θ k + 1 = θ k - ε k \partial L ( θ k , z ) \partial θ k

$\theta^{k+1} = \theta^{k} - \varepsilon_k \frac{\partial L(\theta^k,z)}{\partial \theta^k}$ 其中，z是训练集的下一个样本，或者在在线设定中（没有固定的训练样本数，但是存在连续不断的样本流）是训练分布的下一个采样的样本。随机梯度下降法(SGD)其实更加通用，它的更新方向是一个随机变量，这个随机变量的期望是真实的梯度下降方向。SGD除了它随机性的增长以外，收敛条件和其他的梯度下降法相同。
SGD比原始的梯度下降法具有更快的速度，因为它更新的速度很快。特别是在大数据集的情况下，或者对于在线设定。其实，对于机器学习任务而言，只有在最优化函数不能分解时，才使用传统的梯度下降法。