5.过拟合和如何避免
基本概念:泛化;拟合和过拟合;复杂度控制
主要技巧:交叉验证;属性选择;树修剪
规则化
泛化
过拟合
过拟合检验
维持数据和拟合图
树归纳中的过拟合
数学方程中的过拟合
例子:过拟合线性方程
*例子:为什么过拟合不好?
从维持估计到交叉验证
重访客户流失数据集
学习曲线
避免过拟合和复杂度控制
树模型避免过拟合
避免过拟合总的方法
*避免过拟合:参数优化
总结
第五章 过拟合和其避免
基本概念:泛化;拟合和过拟合;复杂度控制
主要技巧:交叉验证;特征选择;树修剪;规则化
实际应用中的“侥幸(fluke)”是在设计阶段中的反复思考试验中获得的。
过拟合
任何模型都有过拟合的倾向,这是没有办法消除的。正确的策略是在复杂度和过拟合之间权衡。以下探讨评估过拟合的程度以及尽量避免过拟合。
过拟合检验
保留数据和拟合图
决策树如果穷尽所有属性很容易导致过拟合。
从上图中可以推断,过拟合从TREE SIZE=100开始控制了模型,所以我们应该把树模型尺寸(树模型叶节点)控制在100,但是现在没人想出决定准确甜点(sweet spot)的理论方法所以我们不得不依赖经验技巧。
数学函数中