统计学习方法笔记(五)

决策树:

       决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型.预测时,对新的数据,利用决策树模型进行分类决策树学习通常包括3 个步骤: 特征选择、决策树的生成和决策树的修剪。

       决策树模型由结点和有向边组成,其中结点分为:内部结点和叶结点。内部结点表示一个特证或属性,叶结点表示个类。

特征选择:

        特征选择在于选取对训练数据具有分类能力的特征.这样可以提高决策树学习的效率.如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大.通常特征选择的准则是信息增益或信息增益比。

接下来重点介绍信息增益:

     首先先给出熵和条件熵的概念:
  • 熵(entropy)
        设X是一个取有限个值的离散随机变量,其概率分布为       

                              
        则随机变量X的熵定义为
                          
        由定义也可看出,熵只依赖于X的分布,与X的具体取值无关。
        熵越大,随机变量的不确定性就越大。从定义也可看出

                           

       一般我们用的时候都是从数据估计得到的,所对应的熵与条件熵又称为经验熵和经验条件熵。这里如果有0概率出现,我们定义0log0=0。
       而信息增益表示的就是集合D的经验熵与特征A给定条件下D的经验条件熵的差
                                          
       很拗口对不对,下面给出算法流程,然后通过例子来了解。

 例子:这是一个15样本的贷款申请训练数据。

         


信息增益比:

      信息增益选择方法有一个很大的缺陷,它总是会倾向于选择属性值多的属性,如果我们在上面的数据记录中加一个姓名属性,假设14条记录中的每个人姓名不同,那么信息增益就会选择姓名作为最佳属性,因为按姓名分裂后,每个组只包含一条记录,而每个记录只属于一类(要么购买电脑要么不购买),因此纯度最高,以姓名作为测试分裂的结点下面有14个分支。但是这样的分类没有意义,它没有任何泛化能力。

      而信息增益比就是信息增益与数据集D的经验熵之比:

 

基尼指数:

给出定义:             

     对于给定的样板集合D,其基尼指数为

                           

     这里,Ck是D中属于第k类的样本子集,K是类个数。

     如果样本集合D根据A是否取某一可能值a被分割成D1,D2两部分,即

              

     则在特征A的条件下,集合D的基尼指数定义为:

              

决策树的生成:

      知道了怎么进行特征选择,很自然的,决策树的生产,就是每次子结点上用选定的特征选择方法去选择特征,递归的生成树,不同的算法选择的方法不同,像ID3算法用的是信息增益,而C4.5用的是信息增益比,CART用的是基尼指数。
     关于ID3,C4.5之前的例子已经知道怎么选特征了,这里就提一下CART算法生成树的过程, 因为CART假设的决策树是二叉树,与另外两个不一样。


例子:还是之前的例子,我们用CART算法生成决策树。



决策树剪枝:

      简单的说,剪枝的意义在于防止过拟合。原因在于决策树生成的太细,过于复杂。
      具体做法就是从已生成的树上剪掉一些子树或叶结点,将其根结点或父结点作为叶结点。
     书上介绍了一种简单的剪枝算法。就是通过正则化的损失函数。
                          
    剪枝最重要一步就是

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值