过拟合の判断方法、原因、解决方法

Pfirsich Zhang

已于 2024-04-12 15:28:59 修改

阅读量949

点赞数 7

文章标签：机器学习 python 深度学习

于 2024-04-12 14:55:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47755728/article/details/137678733

版权

1 定义

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)（高方差）
欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)（高偏差）

2 判断方法

2.1 通过Loss判断

训练集loss⬇，验证集loss⬇：网络正常，仍在学习。
训练集loss⬇，验证集loss→，可能出现过拟合，数据分布不均匀。
训练集loss⬇，验证集loss⬆，可能出现过拟合。
训练集loss→，验证集loss⬇，数据集有问题。
训练集loss→，验证集loss→，学习过程中遇到瓶颈，可以减小学习率/批量数目和更换梯度优化算法，也有可能网络设计问题。
训练集loss⬆，验证集loss⬆，可能网络结构有问题，超参数设置不正确。

2.2 通过Accuracy判断

验证集的作用是在训练的过程对比训练数据与测试数据的准确率，便于判断模型的训练效果是过拟合还是欠拟合。
过拟合：训练数据的准确率较高而测试数据的准确率较低
欠拟合：训练数据的准确率和测试数据的准确率均较低

2.3 进行交叉验证

将数据集划分为多个子集，轮流将其中一个子集作为验证集，其余子集作为训练集进行多次训练和验证，观察模型在不同验证集上的表现。

如果模型在某些验证集上表现很好，但在其他验证集上表现较差，则可能存在过拟合。

3 原因&解决方法

3.1 数据量太小

增大训练集：在CV中常对图像进行旋转、缩放、剪切、添加噪声等操作。

3.2模型复杂度太大

减小模型复杂度：正则化(L1，L2)；权值共享；dropout；BN；权值衰减

3.3 训练集和验证集特征分布不一致

3.4 数据中噪声干扰过大

3.5 过度训练(overtraining)

训练层面：early stopping（神经网络的训练过程中我们会初始化一组较小的权值参数，随着模型的训练，这些权值也变得越来越大了。为了减小过拟合的影响，就有可能需要早停止了。）

集成学习算法：也就是一个均值的思想，通过集成的思想来减弱过拟合的影响。

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
过拟合の判断方法、原因、解决方法

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)
复制链接

扫一扫

Pfirsich Zhang CSDN认证博客专家 CSDN认证企业博客

码龄4年

43: 原创

1万+: 周排名

3万+: 总排名

1万+: 访问

: 等级

793: 积分

271: 粉丝

359: 获赞

6: 评论

298: 收藏

私信

关注

热门文章

最新评论

C++ KMP算法
CSDN-Ada助手: 恭喜您发布了关于C++ KMP算法的博客！持续创作是提升自己技术水平的好方法，希望您能继续坚持分享知识。不妨考虑下一篇博客可以分享一些实际应用场景下的代码实现或者算法优化技巧，期待您的更多精彩内容！
C++ vector和string互相转换
CSDN-Ada助手: 恭喜您发布了第16篇博客！对于C++ vector和string互相转换的内容，非常实用！希望您可以继续保持创作的热情和质量。或许下一步可以深入探讨一些高级用法或者与其他数据结构的结合应用，不断拓展自己的知识面。期待您的下一篇文章！祝您创作愉快！
二叉树相关
CSDN-Ada助手: 恭喜作者发布了关于二叉树相关的博客！持续创作真的不容易，你的努力和热情让读者受益匪浅。希望你在未来的创作中可以继续深入探讨二叉树的相关知识，或者尝试探讨其他数据结构和算法的内容，相信会有更多人受益于你的分享。期待你的下一篇博客！
结构体struct和类class
CSDN-Ada助手: 恭喜您写了第8篇博客“结构体struct和类class”！您对结构体和类的深入探讨展现了您对编程知识的扎实掌握。希望您能继续保持创作的热情和努力，探索更多有趣的主题，比如数据结构、算法等，让读者们能够从您的博客中获益良多。期待您的下一篇作品！
for(int num:nums2)
CSDN-Ada助手: 恭喜用户写了第三篇博客！看到你对编程的热情和努力真的很令人钦佩。对于下一步的创作建议，我想建议你可以尝试深入探讨一些更复杂的编程概念，例如算法优化或者设计模式等。当然，这只是一个建议，希望你能继续保持写作的热情和耐心，不断提升自己的编程技能！期待看到更多精彩的内容！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。