李宏毅深度学习——局部最小值，batch的选取，自动调整学习率

最新推荐文章于 2024-10-14 22:19:06 发布

Antonio6523

最新推荐文章于 2024-10-14 22:19:06 发布

阅读量932

点赞数 8

分类专栏：李宏毅深度学习文章标签：深度学习学习人工智能

本文链接：https://blog.csdn.net/weixin_54542639/article/details/141753746

版权

李宏毅深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

写在前面

这篇文章对应的是李宏毅的课，2021年版的P5，P6，P7，前面的内容我放在datawhale的笔记里了，感兴趣的同学们可以去看一下

指路：深度学习入门———Task03——2.实践方法论#datawhale-CSDN博客

深度学习入门———Task02——1.2线性模型#datawhale-CSDN博客

深度学习入门———Task01——1.1通过案例了解机器学习#datawhale-CSDN博客

笔记部分

局部最小值

我们先来了解一下局部最小值。先说结论，驻点出现最多的情况是saddle point，也就是马鞍点的部分，下面就说一下这一节究竟讲了些什么。

我们可以通过Hessian matrix，也就是海森矩阵来判断驻点究竟是局部最小值还是马鞍点，我们来看一下具体的推导过程

这个就是推导过程，具体来说就是多元函数的一个二阶的泰勒展开，我们任取一个点theta'，在它附近展开，这时候有人就会问了，这个ppt上怎么没有一阶微分项呢，因为这个是驻点，一阶导为0，所以省略那一项。就这个结果来看，很多人都非常熟悉，这就是我们在高数里学过的多元函数最低点的情况的讨论的一个大致的推导过程。当H为正定矩阵时是局部最小值，负定矩阵是则为局部最大值，如果既不是正定也不是负定时是马鞍点。

面对马鞍点造成的Training stuck时我们就有一些方法去解脱，因为根据梯度下降，我们可以找到出口去下降。具体是什么方法呢，也就是特征值和特征向量，我们取图中向量v的一个特征值lambda，它所对应的特征向量是u，则有：

那么，当这个H负定时，也就是左侧小于零时，也就是我们找到”出口“时，这个u就是我们的“方向”，也就是说，我们可以让theta这么更新：

也有人说了，如果我们真的是陷入局部最小值的话该怎么办呢

这时候就有一个方法，交momentum，也就是参考物理的惯性，就是说，在现实世界中，一个正在下落的球遇到一个小坑也会凭借“惯性”通过，这个所谓的惯性是什么呢，就是我们们一次更新时所保留的上一次的数据，我们看图：

这是我们的一个最经典的梯度下降模型，也就是说，我们每一次更新参数的方向都是梯度的反方向，那么加上所谓的“惯性”会怎么样呢？

我们可以看到，这个每一次我们就需要记录两个量，一个是-g，就是反向的梯度，另一个是上一次的数，在第一次时他们两个时一个数，从第二次开始，以后的每次更新都是反向g与上一次的量，也就是m合成的方向，这也就是所谓的“惯性”。也就是如下更新过程：

这个就是所谓的“惯性”的来源，有了这个惯性，我们更有可能通过这个局部最小值

下面就是讨论所谓的真正的“局部最小值”是不是一个大量存在的情况呢？结论是不是，因为大多数情况下，一个维度下的局部最小值在添加若干维度后大多会找到我们的所谓“出口”，也就成为了马鞍点，这是统计的结果。

batch的选取

先上结论，感兴趣的看一下原理，不感兴趣的跳过即可

下面就是原理，总的来说，batch大的好处就是比较稳定，不会那么的noisy，但是每一次update这个参数的速度就会慢一些，但是随着gpu的平行运算，这个缺点也不太明显，但是缺点就是训练的Loss比较大，也就是说效果不太好，原因也比较简单，就是我们如果说是看完所有的数据之后更新的话就会造成这个结果：

就是我每一次更新参数时都是根据一个单一的Loss曲线的，就是很容易出现Training stuck的情况，而参数更新次数比较多的情况，也就是batch比较小的情况下，我可以在多个Loss曲线上更新我的参数，极大的避免了上述情况，也造成了小的batch优化效果比较好。但是batch比较大的一个优点就是，每一次epoch跑完的时间比较短。