分类器训练的过拟合问题和处理方法【未整理完成】

最新推荐文章于 2022-12-11 14:22:58 发布

卖小孩的咖啡

最新推荐文章于 2022-12-11 14:22:58 发布

阅读量4.1k

点赞数

分类专栏：机器学习文章标签：数据挖掘 machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhzhji440/article/details/44867623

版权

机器学习专栏收录该内容

21 篇文章 2 订阅

订阅专栏

一过拟合

模型训练过程中过度拟合训练集，将训练样本中的噪声（错误的样本）学习进去，使得训练误差不断降低和模型复杂度不断提高，最终导致泛化误差升高的一种现象

成因：噪声（错误的样本），样本过少/缺乏代表性

二预测泛化误差^【1】P110

估计泛化误差用于在训练过程中对模型的泛化误差做估计，可用于优化模型建立，避免模型过拟合。这里关于泛化误差的估计，是在训练过程中进行。要区别于模型评估阶段的泛化误差估计

1使用再代入估计：

用训练误差来表示泛化误差

2 结合模型复杂度：^【1】都是决策树的例子

2.1 悲观误差估计：训练误差+模型复杂度惩罚项

2.2 最小描述长度原则

3 估计统计上界：

将训练误差看作一个随机变量，估计出训练误差的上届，以此表示泛化误差【1】P113

三评估分类器的性能和选择^【2】

这章节主要讨论如何对分类器进行比较和选择。这里强调对分类器的选择方法

3.1 估计泛化误差

通过估计泛化误差实现，即计算模型在测试样本集上的误差；

步骤：1、估计泛化误差；2、根据计算得到泛化误差，使用显著性检验进行选择

1、估计泛化误差：保持法、交叉验证/留一法、自助法

2、使用显著性检验进行选择

3.2 ROC曲线：^{数据挖掘导论P184}

四不平衡类问题^【1】180

一至三章节，主要讨论过拟合以及防止过拟合的一些手段。现在讨论模型训练中的另外一个重要问题，不平衡类问题。

4.1 分类器评估的度量：

在一至三节，使用的评估指标都是准确率，但是准确率将所有样本都看得同等重要，因此在不适用于不平衡类数据集中

由于准确率是灵敏度和特效性的函数

其中灵敏度和特效性：

从以下例子来说明准确率不适合^【2】P239

从上门可以看出，分类器对稀有类的灵敏度太低（30%），而整体准确率为96.4%，这是由于稀有类数量比重过低造成。

因此对于不平衡类问题，广泛使用精度和召回率进行度量。

一个理想分类器在精度和召回率都接近1，但这两个指标一般呈现反向关系，需要根据实际需要进行取舍。

精度和召回率另一种表现方式称为F度量，该度量是精度和召回率的组合。

4.2改善不平衡类问题的方法^【1】186

代价敏感学习/基于和成本效益

基于抽样的方法

抽样的思想是为了改变样本的分布，从而是的稀有类在训练集中有很好的表示。主要的抽样方法有不充分抽样和过抽样。由于不充分抽样和过抽样都存在一些缺陷，因此一般混合使用这两种方法

参考：

【1】数据挖掘导论 Pang Ning Tan

【2】数据挖掘：概念与技术

卖小孩的咖啡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分类器训练的过拟合问题和处理方法【未整理完成】

一过拟合模型训练过程中过度拟合训练集，将训练样本中的噪声（错误的样本）学习进去，使得训练误差不断降低和模型复杂度不断提高，最终导致泛化误差升高的一种现象成因：噪声（错误的样本），样本过少/缺乏代表性二预测泛化误差【1】P110估计泛化误差用于在训练过程中对模型的泛化误差做估计，可用于优化模型建立，避免模型过拟合。这里关于泛化误差的估计，是在训练过程中进行。要区别于模
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。