Dive into deep learning task 03- 过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

最新推荐文章于 2024-07-17 23:22:56 发布

znsoft

最新推荐文章于 2024-07-17 23:22:56 发布

阅读量113

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/znsoft/article/details/104400388

版权

1. 过拟合欠拟合

特征复杂，但是训练样本数不足时，会产生过拟合，即训练误差小，但是在测试集上的测试误差比较大，即泛化能力强

解决的办法是增加样本数量或用L2范数进行征罚。

增加样本数量的方法比较简单，但是费人费物。

L2的范数也叫权重衰减。对绝对值比较大的权重参数进行拟合，从而改善范化误差。本质上是将权重值向较小值的区别压缩。

另一种方法是dropout （丢弃法）

丢弃法不改变输入的期望，按一定的概率丢弃隐藏层中的单元。

p为丢弃率， 1-p 为保存率

欠拟合不是太容易发生，但是如果发生，可以如下解决：

可以通过增加网络复杂度或者在模型中增加多点特征点，这些都是很好解决欠拟合的方法。

2. 梯度消失与梯度暴炸

由于权重大于1, 通过多级网络时，容易导致梯度爆炸。

如果权重小于1, 通过多次网络传递时，容易导致梯度爆炸。

解决方法：

权重参数随初始化，Pytorch采用正态随机初始化方法。

另一种方法是xavier初始化，基于均匀分布的初始化方法，a为对应层的输入个数，b为输出个数。

３．循环神经网络进阶

普通ＲＮＮ的问题是梯度衰减或者暴炸。ＧＲＵ是ＲＮＮ的改进。为了梯度衰减或暴炸。

ＧＲＵ是改进的ｌｓｔｍ模型，重要的是重置门和更新门。重置门捕捉时间序列里短期的依赖关系。

更新门有助于捕捉时间序列里长期的依赖关系。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。