Pytorch：优化器、损失函数与深度神经网络框架

宅家的小魏

已于 2022-03-19 18:31:55 修改

阅读量513

点赞数

分类专栏： PyTorch 文章标签： pytorch 深度学习 adam算法随机梯度下降最小均方误差

于 2022-02-03 18:40:20 首次发布

本文链接：https://blog.csdn.net/weixin_44979150/article/details/122777741

版权

Pytorch: 优化器、损失函数与深度神经网络框架

Copyright: Jingmin Wei, Pattern Recognition and Intelligent System, School of Artificial and Intelligence, Huazhong University of Science and Technology

Pytorch教程专栏链接

文章目录

- - Pytorch: 优化器、损失函数与深度神经网络框架

本教程不商用，仅供学习和参考交流使用，如需转载，请联系本人。

这章内容非常重要，需要大家有一定的机器学习基础，尤其是梯度下降法和损失函数，没有这方面基础，又不太看得懂教程的可以去看如下几个知识点：梯度下降法，随机梯度下降法，均方误差，交叉熵，Logistic Regression，模型的过拟合与欠拟合。

Reference

优化器算法索引网站

Adam 优化器相关论文

各类优化器的论文

优化器

梯度下降是所有机器学习算法的基础，没有这方面经验的同学可以自己查阅相关资料，深入理解背后的数学知识和优化思想。

https://ruder.io/optimizing-gradient-descent/ 是个非常好用的优化器算法索引链接，大家可以用这个链接去找不同的优化器原理。

梯度下降(GD)

在深度学习网络中，通常需要设计一个模型的损失函数来约束我们的训练过程，如针对分类问题可以使用交叉嫡损失，针对回归问题可以使用均方根误差损失等。模型的训练并不是漫无目的的，而是朝着最小化损失函数的方向去训练，这时就会用到梯度下降类的算法。

梯度下降法(gradient descent)是一个阶最优化算法，是通过函数当前点对应梯度(或者是近似梯度)的反方向，使用规定步长距离进行迭代搜索，从而找到一一个函数的局部极小值的算法，最好的情况是希望找到全局极小值。

优化问题：考虑无约束问题 $minimize\ f(x)$ 。给定初始点 $x^{(0)}$ ，寻找序列 $x^{(1)},x^{(2)}\cdots$ 使函数沿着该序列单调递减。
$f(x^{(0)})\geqslant f(x^{(1)})\geqslant f(x^{(2)})\geqslant \cdots$
梯度下降即构造这样的序列，使函数最终达到一个较为满意的最小值点

梯度下降法是典型的迭代法之一，这类方法的核心，即为如何定义从上一个点到下一个点的规则，一般利用一阶导数(梯度)或者二阶导数(黑塞矩阵)。

原理：假设当前点为 $x^{(k)}$ ，则下一个点为 $x^{(k+1)}=x^{(k)}+t\Delta x^{(k)}, \quad\Delta x^{(k)}=-\nabla f(x^{(k)})$ 。

定义：下降方向。如果 $\exist\ t$ 使得 $f(x_0+tv)<f(x_0)$ ，则 $v$ 为 $f$ 在 $x_0$ 的下降方向。

泰勒展开： $f(x_k+\Delta x)-f(x_k)=(\Delta f(x))^T\Delta x+o(||\Delta x||)$

保证移动到下一个点时，函数值减小，则有：
$\begin{aligned} &\Delta x>0,\nabla f(x_k)\leqslant0\\ &\Leftrightarrow \Delta x^T\ \nabla f(x_k)\leqslant0\ (Taylor)\\ &\Leftrightarrow -\nabla {f(x_k)}^T \ \nabla f(x_k)\ (令\Delta x=\nabla f(X_k))\\ &=-\bigl||\nabla f(x_k) |\bigr|_2^2\leqslant0 \end{aligned}$
定理：对于连续可导函数 $f$ ，如果 $v^T \nabla f(x_0)<0$ ，则 $v$ 为下降方向。
$\begin{aligned} f(x^{(k+1)})&=f(x^{(k)}+t\Delta x)\\ &=f(x^{(k)}+t\nabla f(x^{(k)})^T\Delta x)\\ &=f(x^{(k)}-t\bigl||\nabla f(x^{(k)})|\bigr|) \end{aligned}$
夹角： $\Delta x^T\ \nabla f(x_k)=||\Delta x||\cdot||f(x_k)||\cdot\cos\theta$ 。则 $\theta=\pi$ ，即负梯度方向时，函数值下降得是最快的。

步长 $t$ (学习率)是用来保证 $x+\Delta x$ 在 $x$ 的邻域内，从而可以忽略泰勒公式中的 $o(||\Delta x||)$ 项。

迭代终止条件：函数的梯度值为 $0$ 或接近 $0$ ，此时认为已经达到了极值点。

算法过程：( $e p s$ 为人工指定的接近 $0$ 的正数， $N$ 为最大迭代次数)
$\begin{aligned} &init\ x_0,k=0\\ &while\ ||\nabla f(x_k)>eps||\ and\ K<N:\\ &...x_{k+1}=x_k-t\nabla f(x+k)\\ &...k=k+1\\ &end\ while \end{aligned}$

最速下降

它的思想和梯度下降法类似，但是每次需要计算最佳步长 $t^*$ 。

步长确定： $t^{(k)}=\arg\min_{t\geqslant0}f(x^{(k)}-t\nabla f(x^{(k)}))$ 。

两种优化方法，第一种是取多个典型值，然后分别计算他们的目标函数值，确定最优值。第二种方法是以 $t$ 为自变量，直接求上式的逐点，对于有些情况可以得到解析解。这类方法也成为直线搜索，它沿着某一确定的方向在直线上寻找最优步长。

随机梯度下降(SGD)

在使用梯度下降算法时，每次更新参数都需要使用所有的样本。如果对所有的样本均计算一次最后取梯度平均值，当样本总量特别大时，对算法的速度和效率影响非常大。所以就有了随机梯度下降(stochastic gradient descent, SGD)算法，它是对梯度下降法算法的一种改进，即每次只使用部分样本来计算梯度。

在机器学习和深度学习中，SGD 通常指小批随机梯度下降(mini-batch gradient descent)算法，即每次只随机取一部分样本( $M\ll N$ )进行优化，样本的数量一般是 $2$ 的整数次幂，取值范围一般是 $32\sim256$ ，以保证计算精度的同时提升计算速度，是优化深度学习网络中最常用的一类算法。

本质上，即损失从整体样本的平均损失，变成了这个 batch 样本的损失：
$L(w)=\frac{1}{N}\sum_{i=1}^NL(w,x_i,y_i)\rightarrow\\ L(w)=\frac{1}{M}\sum_{i=1}^ML(w,x_i,y_i)$
SGD 算法及其一些变种，是深度学习中应用最多的一类算法。其在训练过程中，通常会使用一个固定的学习率进行训练。即：