深度学习中模型训练效果不好的原因以及防止过拟合的方法

最新推荐文章于 2025-02-11 15:36:57 发布

jiangtao129

最新推荐文章于 2025-02-11 15:36:57 发布

阅读量2.4w

点赞数 19

文章标签：神经网络深度学习算法过拟合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46470894/article/details/107442548

版权

深度学习中模型训练效果不好的原因

1. 是否选择合适的损失函数
2. 是否选择了合适的Mini-batch size
3. 是否选择了合适的激活函数
4. 是否选择了合适的学习率
5. 优化算法是否使用了动量（Momentum）
6. 其他原因

当我们用自定义的模型去训练某个数据集时，
经常会出现效果不佳的情况：精度太低、损失降不下去、泛性太差等情况。可能的原因有：

数据集样本太少，多样性不够；
网络模型是否添加了BN层，损失函数和激活函数的选取；
优化器的选取，学习率的设置等；

这里暂时不考虑数据集的原因，我们首先来看一下网络模型和优化算法中可能存在的问题：

1. 是否选择合适的损失函数

神经网络的损失函数是非凸的，有多个局部最低点，目标是找到一个可用的最低点。
非凸函数是凹凸不平的，但是不同的损失函数凹凸起伏的程度不同，例如下述的平方损失和交叉熵损失，后者起伏更大，且后者更容易找到一个可用的最低点，从而达到优化的目的。
- Square Error（平方损失）
- Cross Entropy（交叉熵损失）

2. 是否选择了合适的Mini-batch size

使用合适的batch size进行学习，一方面可以减少计算量，一方面有助于跳出局部最优点。
batch取太大会陷入局部最小值，batch取太小会抖动厉害，因此要选择一个合适的batch size。

batch size选取时可以采用以下策略：

当有足够算力时，选取batch size为32或更小一些。
算力不够时，在效率和泛化性之间做trade-off，尽量选择更小的batch size。
当模型训练到尾声

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。