梯度下降法与牛顿法-CSDN博客

本文链接：https://blog.csdn.net/yhmabcdef/article/details/77141186

1 梯度下降法

梯度下降法（gradient descent：GD）

梯度： $f(\theta)$ 在 $\theta_{0}$ 处的梯度表示 $f(\theta)$ 在点 $\theta_{0}$ 处函数值变化最快的方向。
对于凸函数 $f(\theta)$ 来说，沿着负梯度方向寻找可以找到函数的极小值

θ k + 1 = θ k - η f' (θ k)

$\theta^{k+1}=\theta^{k}-\eta f'(\theta^{k})$

k $k$ 表示第

k $k$ 步迭代，

η $\eta$ 表示修正因子(步长)，因为梯度方向变化最快，只在局部有效
如果对于多维情形，表示为

θ k + 1 = θ k - η \nabla f (θ k)

$\theta^{k+1}=\theta^{k}-\eta\nabla f(\theta^{k})$
其中

θ k = (θ k 1, θ k 2, . . ., θ k n) T

$\theta^{k}=(\theta^{k}_{1},\theta^{k}_{2},...,\theta^{k}_{n})^{T}$

\nabla f (θ k + 1) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial θ k 1 \partial f \partial θ k 2 . . . \partial f \partial θ k n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\nabla f(\theta^{k+1})= \left[ \begin{matrix} \frac{\partial{f}}{\partial{\theta^{k}_{1}}}\\ \frac{\partial{f}}{\partial{\theta^{k}_{2}}}\\ ...\\ \frac{\partial{f}}{\partial{\theta^{k}_{n}}}\\ \end{matrix} \right]$

梯度下降法分类

以线性回归举例
对于训练数据集 $T=\{(x^{(1)}, y^{(1)}),(x^{(2)},y^{(2)},...,(x^{(m)},y^{(m)})\}$
采用线性回归模型 $h(\theta,x)=\sum_{i=0}^{n}\theta_{i}x_{i}$ $\quad n$ 表示样本的特征个数
损失函数 $J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y^{i}-h(\theta,x^{(i)}))^2$

批量梯度下降法（Batch gradient descent：BGD）

要使得 $J(\theta)$ 取得极小值

\partial J ( θ ) \partial θ j = - \sum i = 1 m (y (i) - h (θ, x (i))) x (i) j

$\frac{\partial J(\theta)}{\partial \theta_{j}}=-\sum_{i=1}^{m}(y^{(i)}-h(\theta,x^{(i)}))x_{j}^{(i)}$
在第

k+1 $k+1$ 步迭代时

θ k + 1 j = θ k j + η \sum i = 1 m (y (i) - h (θ, x (i))) x (i) j

$\theta_{j}^{k+1}=\theta_{j}^{k}+\eta\sum_{i=1}^{m}(y^{(i)}-h(\theta,x^{(i)}))x_{j}^{(i)}$
每次迭代使用全部的样本，即为批量梯度下降法，这样可以使迭代朝着全局最优方向进行，但是如果样本量足够大，则迭代速度比较慢

随机梯度下降法（Stochastic gradient descent：SGD）

相比批量梯度下降法，随机梯度下降法则每次随机选取样本 $x^{(i)}$ 更新参数
在第 $k+1$ 步迭代时

θ k + 1 j = θ k j + η (y (i) - h (θ, x (i))) x (i) j

$\theta_{j}^{k+1}=\theta_{j}^{k}+\eta(y^{(i)}-h(\theta,x^{(i)}))x_{j}^{(i)}$
相比BGD，SGD的迭代效率更高，但是SGD的噪音可能会比BGD更多，迭代方向并不一定朝着全局最优方向进行，迭代过程可能比较曲折，最终结果往往在全局最优解附近