机器学习、深度学习中常用的优化算法详解——梯度下降法、牛顿法、共轭梯度法

最新推荐文章于 2023-09-10 22:06:08 发布

马苏比拉米G

最新推荐文章于 2023-09-10 22:06:08 发布

阅读量5.6k

点赞数 5

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_44388679/article/details/102688964

版权

一、梯度下降法

1、总述：

在机器学习中，基于基本的梯度下降法发展了三种梯度下降方法，分别为随机梯度下降法，批量梯度下降法以及小批量梯度下降法。
（1）批量梯度下降法（Batch Gradient Descent，BGD）
BGD 得到的是一个全局最优解，但是批量梯度下降法在更新每一个参数时，都需要所有的训练样本，如果样本的数量很大，那么可想而知这种方法的迭代速度会相当的慢。从迭代的次数上来看，BGD迭代的次数相对较少。
（2）随机梯度下降（Stochastic Gradient Descent，SGD）
随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经迭代到最优解了，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。但是，SGD 伴随的一个问题是噪音较 BGD 要多，使得 SGD 并不是每次迭代都向着整体最优化方向。从迭代的次数上来看，SGD 迭代的次数较多，在解空间的搜索过程看起来很盲目。
（3）小批量梯度下降法（Mini-batch Gradient Descent，MBGD）
有上述的两种梯度下降法可以看出，其各自均有优缺点，那么能不能在两种方法的性能之间取得一个折衷呢？即，算法的训练过程比较快，而且也要保证最终参数训练的准确率，而这正是小批量梯度下降法（Mini-batch Gradient Descent，简称MBGD）的初衷。
（4）总结：

梯度下降法	方法	优点	缺点
批量梯度下降法	最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小，但是对于大规模样本问题效率低下	容易找到全局最优解；易于并行实现	当样本数目很多时，训练过程会很慢
随机梯度下降	最小化每个样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近，适用于大规模训练样本情况	训练速度快	准确度下降；对于非凸问题，只能收敛到局部最优；不易于并行实现。
小批量梯度下降法	以损失很小的一部分精确度和增加一定数量的迭代次数为代价，换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量	训练过程较快，而且也要保证最终参数训练的准确率	容易达到局部最优

2、什么是梯度下降法

（1）梯度下降法示例
举个例子：比如当我们要做一个房屋价值的评估系统，那都有哪些因素决定或影响房屋的价值呢？比如说面积、房子的大小（几室几厅）、地段、朝向等等，这些影响房屋价值的变量被称为特征(feature)。在这里，为了简单，我们假定房屋只由一个变量影响，那就是房屋的面积。
假设有一个房屋销售的数据如下：

面积( $\displaystyle m^{2}$ )	销售价钱（万元）
123	250
150	320
87	160
102	220
…	…

可以做出一个图，x轴是房屋的面积。y轴是房屋的售价，如下：
在这里插入图片描述
如果来了一个新的房子/面积，假设在房屋销售价格的记录中没有的，怎么办呢？
可以用一条曲线去尽量准的拟合这些数据，然后如果有新的输入面积，我们可以在将曲线上这个点对应的值返回。如果用一条直线去拟合房屋价格数据，可能如下图这个样子：
在这里插入图片描述
而图中绿色的点就是我们想要预测的点。

为了数学建模，首先给出一些概念和常用的符号。
房屋销售记录表 – 训练集(training set)或者训练数据(training data), 是我们流程中的输入数据，一般称为x
房屋销售价钱 – 输出数据，一般称为y
拟合的函数（或者称为假设或者模型），一般写做 y = h(x)
训练数据的条目数(#training set), 一条训练数据是由一对输入数据和输出数据组成的
输入数据的维度(特征的个数，#features)，n

然后便是一个典型的机器学习的过程，首先给出一个输入数据，我们的算法会通过一系列的过程得到一个估计的函数，这个函数有能力对没有见过的新数据给出一个新的估计，也被称为构建一个模型。
在这里插入图片描述
用 $\displaystyle X_{1}$ ， $\displaystyle X_{2}$ … $\displaystyle X_{N}$ 去描述feature里面的分量，比如 $\displaystyle X_{1}$ =房间的面积， $\displaystyle X_{2}$ =房间的朝向等等，可以做出一个估计函数：

$θ$ 在这儿称为参数，在这儿的意思是调整feature中每个分量的影响力，就是到底是房屋的面积更重要还是房屋的地段更重要。
如果我们令 $\displaystyle X_{0}$ = 1，就可以用向量的方式来表示了：
在这里插入图片描述
程序也需要一个机制去评估我们 $θ$ 是否比较好，所以说需要对我们做出的h函数进行评估，一般这个进行评估的函数称为损失函数（loss function），描述h函数不好的程度，这里我们称这个函数为 $J$ 函数。
在这里插入图片描述
换言之，把对 $\displaystyle X_{i}$