【笔记】神经网络的优化问题（一）

_Ronnie_

已于 2022-04-10 23:42:57 修改

阅读量2.1k

点赞数 1

分类专栏：机器学习笔记深度学习文章标签：神经网络机器学习

于 2021-01-18 16:34:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45850137/article/details/112788021

版权

笔记同时被 3 个专栏收录

11 篇文章 0 订阅

订阅专栏

7 篇文章 1 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

笔记总结自《神经网络与深度学习》第7章-网络优化与正则化

1. 高纬空间的非凸优化

在高纬空间中，大部分的局部最优点都是鞍点。因此，在深度网络的非凸优化问题的难点是如何逃离鞍点。通过引入随机因素，能够解决梯度下降方法在鞍点附近梯度为0的问题，从而有效地逃离鞍点。

2. 改善神经网络计算的优化方法

2.1 小批量（Mini-batch ）梯度下降

初衷：通常深度神经网络使用的数据量都非常大，不适合一次性加载所有的数据进行梯度计算和更新，因此用到了小批量的梯度更新方法。

在这里插入图片描述

影响小批量梯度下降效果的因素

1）批量大小（ $K$ ）；2）学习率（ $\alpha$ ）；3）梯度估计（ $g_t$ ）。

在此基础上研究改进的方法。

1）选择合适的批量；2）选择合适的学习率；3）更好地估计梯度

2.2 选择合适的批量

batch size对网络优化影响很大。

一般而言，批量大小不影响随机梯度的期望，但是会影响随机梯度的方差．批量大小越大，随机梯度的方差越小，引入的噪声也越小，训练也越稳定，因此可以设置较大的学习率．而批量大小较小时，需要设置较小的学习率，否则模型会不收敛．

调整方法：线性缩放规则

当批量大小增加 𝑚 倍时，学习率也增加 𝑚 倍．性缩放规则往往在批量大小比较小时适用，当批量大小非常大时，线性缩放会使得训练不稳定．

2.3 选择合适的学习率

2.3.1 学习率调整方法

调整方法1：学习率衰减

目的：学习率在一开始要保持大些来保证收敛速度，在收敛到最优点附近时要小些以避免来回振荡。

调整方法2：学习率预热

目的：提高小批量梯度下降的训练稳定性。

原因：小批量梯度下降法中，当批量大小的设置比较大时，通常需要比较大的学习率．但在刚开始训练时，由于参数是随机初始化的，梯度往往也比较大，再加上比较大的初始学习率，会使得训练不稳定

调整方法3：周期性学习率

目的：当优化过程处于尖锐最小值附近时，增大学习率有助于逃离尖锐最小值。

我的理解：非凸优化中，局部的尖锐最小值并不对应全局最优解。其次，在尖锐最小值处，模型的鲁棒性较差（模型参数的微小变动会使得性能的大幅改变）。

2.3.2 学习率调整算法

该部分仅简要记录算法的特点，对于算法细节暂时不作阐述。

算法1：AdaGrad

AdaGrad（Adaptive Gradient Algorithm），自适应梯度算法。

算法的自适应是针对模型参数而言的。在每次迭代过程中，调整不同参数的学习率。

算法2：RMSprop

在有些情况下避免 AdaGrad 算法中学习率不断单调下降以至于过早衰减的缺点。

在迭代过程中，每个参数的学习率并不是呈衰减趋势，既可以变小也可以变大。

算法3：AdaDelta

AdaDelta 算法也是对AdaGrad算法的优化。相比 RMSprop 算法，一定程度上平抑了学习率的波动。

2.4 更好地估计梯度

初衷：当批量取值较小时，损失会震荡式下降，增加了训练的随机性。

2.4.1 动量法

在这里插入图片描述

动量法相当于对梯度更新的一种平滑，缓解梯度估计的随机性。

2.4.2 Adam 算法

相当于动量法+RMSprop

2.5 总结

优化方法大体上可以分为两类：1）调整学习率，使得优化更稳定；2）梯度估计修正，优化训练速度。

这里我直接贴书本的图和表，对这几个算法的效果有更直观的印象。

在这里插入图片描述

下面给出了这几种优化方法在 MNIST 数据集上收敛性的比较（学习率为0.001，批量大小为128）

在这里插入图片描述

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【笔记】神经网络的优化问题（一）

神经网络的优化问题（一）笔记总结自《神经网络与深度学习》第7章-网络优化与正则化1. 高纬空间的非凸优化在高纬空间中，大部分的局部最优点都是鞍点。因此，在深度网络的非凸优化问题的难点是如何逃离鞍点。通过引入随机因素，能够解决梯度下降方法在鞍点附近梯度为0的问题，从而有效地逃离鞍点。2. 改善神经网络计算的优化方法2.1 小批量（Mini-batch ）梯度下降初衷：通常深度神经网络使用的数据量都非常大，不适合一次性加载所有的数据进行梯度计算和更新，因此用到了小批量的梯度更新方法。影响小批量梯
复制链接

扫一扫

专栏目录

_Ronnie_ CSDN认证博客专家 CSDN认证企业博客

码龄5年

16: 原创

106万+: 周排名

155万+: 总排名

3万+: 访问

: 等级

374: 积分

4: 粉丝

25: 获赞

8: 评论

134: 收藏

私信

关注

热门文章

分类专栏

机器学习 7篇
笔记 11篇
NLP 7篇
搜索
深度学习 2篇
Windows
Python 1篇
数据分析
Debug
刷题 2篇
Linux 1篇

最新评论

【笔记】Word2vec模型复现与PYTHONHASHSEED
杭州的平湖秋月: 补充一下：实际上是可以使用 os.environ 的，但是要在多进程中。下面例子中，就可以得到相同的 hash 结果： [code=python] import os import subprocess # 在多进程场景下，要先设置好 PYTHONHASHSEED，然后再启动多个 Python 进程。 os.environ["PYTHONHASHSEED"] = '2' proc = subprocess.call(['python', '-c', 'print(hash("foo"))']) proc = subprocess.call(['python', '-c', 'print(hash("foo"))']) [/code]
【笔记】Linux环境下使用tee记录python程序的标准错误输出stderr
丫丫afc: cmd |& tee log.txt 我这里为什么不行啊？报错sh: 1: Syntax error: "&" unexpected
数据归一化 MinMaxScaler
M_虚怀谷: 可以进行Z分数转换，进行归一化处理是为了在不同的特征之间能够进行比较，让数据具有可比性。
【笔记】logging in python/模板
北风之神c: 写得赞，博主用心了。此国产日志 https://github.com/ydf0509/nb_log 使用原生 loggng封装，兼容性和替换性100%。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。4、多进程日志切割安全，文件日志写入性能高 5、入参简单，能一键自动记录到多种地方. 相比 loguru 有10胜。 pip install nb_log 。
数据归一化 MinMaxScaler
_Ronnie_: 我是这么理解的：1）为了使得模型在测试集上有不错的泛化性，要保证你的测试集和训练集的数据分布（例如均值、方差）相近；2）如果两者数据分布一致，那么对于测试数据中的异常点，可以考虑将它的值压缩到范围之内；3）如果两者数据分布不一致，应该考虑的是调整你的数据（本文语境下就是调整你的scaler）并重新训练模型。：）

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。