分类器训练的过拟合问题和处理方法【未整理完成】

一 过拟合

模型训练过程中过度拟合训练集,将训练样本中的噪声(错误的样本)学习进去,使得训练误差不断降低和模型复杂度不断提高,最终导致泛化误差升高的一种现象

 

成因:噪声(错误的样本),样本过少/缺乏代表性

 

二 预测泛化误差【1】P110

估计泛化误差用于在训练过程中对模型的泛化误差做估计,可用于优化模型建立,避免模型过拟合。这里关于泛化误差的估计,是在训练过程中进行。要区别于模型评估阶段的泛化误差估计

1使用再代入估计:

用训练误差来表示泛化误差

2 结合模型复杂度:【1】都是决策树的例子

    2.1 悲观误差估计:训练误差+模型复杂度惩罚项

    2.2 最小描述长度原则

3 估计统计上界:

将训练误差看作一个随机变量,估计出训练误差的上届,以此表示泛化误差【1】P113

 

三 评估分类器的性能和选择【2】

这章节主要讨论如何对分类器进行比较和选择。这里强调对分类器的选择方法

3.1 估计泛化误差

通过估计泛化误差实现,即计算模型在测试样本集上的误差;

 

步骤:1、估计泛化误差;2、根据计算得到泛化误差,使用显著性检验进行选择

1、 估计泛化误差:保持法、交叉验证/留一法、自助法

2、 使用显著性检验进行选择

 

3.2  ROC曲线:数据挖掘导论P184

 

四 不平衡类问题【1】180

一至三章节,主要讨论过拟合以及防止过拟合的一些手段。现在讨论模型训练中的另外一个重要问题,不平衡类问题。

 

4.1 分类器评估的度量:

在一至三节,使用的评估指标都是准确率,但是准确率将所有样本都看得同等重要,因此在不适用于不平衡类数据集中

 

由于准确率是灵敏度和特效性的函数

其中灵敏度和特效性:

从以下例子来说明准确率不适合【2】P239

从上门可以看出,分类器对稀有类的灵敏度太低(30%),而整体准确率为96.4%,这是由于稀有类数量比重过低造成。

 

因此对于不平衡类问题,广泛使用精度召回率进行度量。

一个理想分类器在精度召回率都接近1,但这两个指标一般呈现反向关系,需要根据实际需要进行取舍。

精度召回率另一种表现方式称为F度量,该度量是精度召回率的组合。

4.2改善不平衡类问题的方法【1】186

代价敏感学习/基于和成本效益

基于抽样的方法

抽样的思想是为了改变样本的分布,从而是的稀有类在训练集中有很好的表示。主要的抽样方法有不充分抽样过抽样。由于不充分抽样过抽样都存在一些缺陷,因此一般混合使用这两种方法

 

 

 

参考:

【1】   数据挖掘导论  Pang Ning Tan

【2】   数据挖掘:概念与技术 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值