深度学习理论课程第四、五章总结

拟拟

已于 2022-07-16 11:49:24 修改

阅读量534

点赞数 1

文章标签：深度学习

于 2022-07-16 00:08:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_64263318/article/details/125813905

版权

目录

第四章正则化

4.2 数据增强

4.3 L1与L2正则

4.5 提前终止

4.6 随即池化

第五章优化器

实践案例从感知机到卷积神经网络

第四章正则化

4.1 过拟合

过拟合：模型中训练误差（经验误差）较小，但泛化误差（测试误差）较大。

产生过拟合的原因：模型学习能力（模型容量）与数据复杂度之间失配。数据噪声干扰过大，训练样本太少，无法描述问题的真实分布，模型复杂度过高。

解决方法：减少特征维度；正则化（数据增强、参数范数惩罚、Dropout、提前终止）等等。

欠拟合：模型训练误差很大。

产生欠拟合的原因：特征量过少，模型复杂度过低，不能学习到数据的“一般规律”。

解决方法：增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间；添加多项式特征；减少正则化参数（正则化的目的是用来防止过拟合的，出现欠拟合可以减少正则化参数）。

4.2 数据增强

数据增强：在模型中增加训练数据样本。

作用：有效的防止过拟合。

在训练时对模型进性噪声输入，可以训练模型的抗噪能力，防止模型过拟合。

在输入层加入噪声：数据增强、在隐藏层加入噪声：Dropout、在输出层加入噪声：标签平滑。

4.3 L1与L2正则

L1与L2正则可以限制模型的学习能力，使模型学习能力降低，从而解决模型的过拟合问题。

L1正则与L2正则对比：L1正则能够产生更加稀疏的模型，当L1正则在参数w比较小时，能够直接缩减至0，因此可以起到特征选择的作用。从概率的角度进行分析，很多范数约束相当于对参数添加先验分布，其中L2范数相当于参数服从高斯先验分布；L1范数相当于拉普拉斯分布。

4.4 Dropout

Dropout：一类通用并且计算简洁的正则化方法。在训练过程中，随即丢弃一部分输入，此时丢弃部分对应的参数不会更新。类似一个集成方法，将所有子网络结果进行合并，通过随机丢弃输入可以得到各种子网络。

作用：取平均的作用；减少神经元之间的复杂的共适应关系；Dropout类似与性别在生物进化中的角色。

工作流程：

4.5 提前终止

提前终止：在训练过程中，插入对验证集数据的测试。当发现验证集数据的Loss上升时，提前停止训练。

4.6 随即池化

池化的意义：对数据进性降采样操作。

作用：特征不变性（使模型更关注包含一定的自由度，能容忍特征微小的位移）；特征降维（降采样使后续操作的计算量得到减少）；一定程度防止过拟合。

池化层的常规操作：最大值池化，均值池化，随即池化，中值池化，组合池化等。

最大池化：能学习到图像的边缘和纹理结构。

均值池化：减小估计均值的偏移，提升模型的鲁棒性。

随即池化：按一定概率随机选取其中的一个元素，介于平均池化与最大池化之间，受Dropout启发，有更好的正则化效果。

第五章优化器

常见优化器：SGD、Momentum、Adagrad、Adadelta、RMSprop、Adam。

梯度下降：

全局梯度下降：采用整个训练集的数据进行计算梯度。

缺点：一次更新中对整个数据及计算梯度，计算很慢，不适用于进入新的模型进行计算。

随机梯度下降：SGD每次更新时对每个样本进行梯度更新，对于很大的数据集来说，可能会有很相似的样本，而SGD一次只进行一次更新，没有冗余，速度快，可以新增样本。

缺点：更新频繁，会严重震荡，准确度下降。

小批量梯度下降法：每次利用小批样本，降低参数更新的方差，利用高度有花的矩阵进行梯度计算。

缺点：无法保证收敛；learning rate太小，收敛慢，learning rate太大，loss function会在极小值处动荡偏离。对于非凸函数，可能陷入局部极小，或者鞍点。

Momentum：动量优化算法。

Adagrad：梯度的值趋向于零时，算法失去学习效果，训练可能会提早结束。

Adadelta是Adagrad的扩展，可以有效地减少摆动。

RMSprop：偏置校正后，每个迭代学习率都有确定范围，参数较平稳。

如何选择合适的优化器：

数据稀疏：选择自适应的优化器，如：Adagrad、Adadelta、RMSprop、Adam。

梯度稀疏：Adam比RMSprop效果更好。

总而言之，Adam优化器应用范围更广，比较常用。

实践案例从感知机到卷积神经网络

训练100次

训练轮次为100次时，模型的准确率只有79%，继续进性训练，当训练400次时，模型的准确率达到94%，继续训练模型的准确率区于稳定，增长幅度非常慢。

训练400次

深度学习理论课程：AI Gallery-开发者-华为云 (huaweicloud.com)

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习理论课程第四、五章总结

深度学习
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。