一 过拟合
模型训练过程中过度拟合训练集,将训练样本中的噪声(错误的样本)学习进去,使得训练误差不断降低和模型复杂度不断提高,最终导致泛化误差升高的一种现象
成因:噪声(错误的样本),样本过少/缺乏代表性
二 预测泛化误差【1】P110
估计泛化误差用于在训练过程中对模型的泛化误差做估计,可用于优化模型建立,避免模型过拟合。这里关于泛化误差的估计,是在训练过程中进行。要区别于模型评估阶段的泛化误差估计
1使用再代入估计:
用训练误差来表示泛化误差
2 结合模型复杂度:【1】都是决策树的例子
2.1 悲观误差估计:训练误差+模型复杂度惩罚项
2.2 最小描述长度原则
3 估计统计上界:
将训练误差看作一个随机变量,估计出训练误差的上届,以此表示泛化误差【1】P113
三 评估分类器的性能和选择【2】
这章节主要讨论如何对分类器进行比较和选择。这里强调对分类器的选择方法
3.1 估计泛化误差
通过估计泛化误差实现,即计算模型在测试样本集上的误差;
步骤:1、估计泛化误差;2、根据计算得到泛化误差,使用显著性检验进行选择
1、 估计泛化误差:保持法、交叉验证/留一法、自助法
2、 使用显著性检验进行选择
3.2 ROC曲线:数据挖掘导论P184
四 不平衡类问题【1】180
一至三章节,主要讨论过拟合以及防止过拟合的一些手段。现在讨论模型训练中的另外一个重要问题,不平衡类问题。
4.1 分类器评估的度量:
在一至三节,使用的评估指标都是准确率,但是准确率将所有样本都看得同等重要,因此在不适用于不平衡类数据集中
由于准确率是灵敏度和特效性的函数
其中灵敏度和特效性:
从以下例子来说明准确率不适合【2】P239
从上门可以看出,分类器对稀有类的灵敏度太低(30%),而整体准确率为96.4%,这是由于稀有类数量比重过低造成。
因此对于不平衡类问题,广泛使用精度和召回率进行度量。
一个理想分类器在精度和召回率都接近1,但这两个指标一般呈现反向关系,需要根据实际需要进行取舍。
精度和召回率另一种表现方式称为F度量,该度量是精度和召回率的组合。
4.2改善不平衡类问题的方法【1】186
代价敏感学习/基于和成本效益
基于抽样的方法
抽样的思想是为了改变样本的分布,从而是的稀有类在训练集中有很好的表示。主要的抽样方法有不充分抽样和过抽样。由于不充分抽样和过抽样都存在一些缺陷,因此一般混合使用这两种方法
参考:
【1】 数据挖掘导论 Pang Ning Tan
【2】 数据挖掘:概念与技术