决策树的定义
- 分类决策树模型是一种描述对实例进行分类的属性结构。
- 决策树由结点和有向边组成,其中结点有两种类型:内部结点和叶结点
- 内部结点表示一个特征或属性;外部结点表示一个类
决策树(Decison Tree):
决策树就是不断根据某属性进行划分的过程(注意:每次决策时考虑范围是在上次决策结果的限定范围之内的),即“If…else if…else……”的决定过程。
目的:分类。划分到什么时候,就停止划分呢?这就是图 4.2 中的三个“return”代表的递归返回。
对抗过拟合
一.什么是过度拟合数据?
过度拟合(overfitting)的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据.
overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据.此时我们就叫这个假设出现了overfitting的现象.
二.产生过度拟合数据问题的原因有哪些?
原因1:样本问题
(1)样本里的噪音数据干扰过大,大到模型过分记住了噪音特征,反而忽略了真实的输入输出间的关系;(什么是噪音数据?)
(2)样本抽取错误,包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点,等等导致抽出的样本数据不能有效足够代表业务逻辑或业务场景;
(3)建模时使用了样本中太多无关的输入变量。
原因2:构建决策树的方法问题
在决策树模型搭建中,我们使用的算法对于决策树的生长没有合理的限制和修剪的话,决策树的自由生长有可能每片叶子里只包含单纯的事件数据或非事件数据,可以想象,这种决策树当然可以完美匹配(拟合)训练数据,但是一旦应用到新的业务真实数据时,效果是一塌糊涂。
上面的原因都是现象,但是其本质只有一个,那就是“业务逻辑理解错误造成的”&