DataWhale:西瓜书和南瓜书 决策树

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
例如:第四章 决策树


提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


前言

提示:这里可以添加本文要记录的大概内容:

基本机器学习我们已经学完了,然后这几天学习的就是决策树,我认为这一章节其实是有难度的,但是依然结合西瓜书和南瓜书,明白了下面的一些概念。

提示:以下是本篇文章正文内容,下面案例可供参考

一、决策树是什么?

显然,决策树的生成是一个递归过程.在决策树基本算法中,有三种情形会
导致递归返回: ( 1 ) 当前结点包含的样本全属于同一类别,无需划分; ( 2 ) 当前
属性集为空,或是所有样本在所有属性上取值相同,无法划分; ( 3 ) 当前结点包
含的样本集合为空,不能划分。
在第⑵种情形下,我们把当前结点标记为叶结点,并将其类别设定为该结
点所含样本最多的类别;在第⑶种情形下,同样把当前结点标记为叶结点,但
将其类别设定为其父结点所含样本最多的类别.注意这两种情形的处理实质不
同:情形⑵是在利用当前结点的后验分布,而情形⑶则是把父结点的样本分布
作为当前结点的先验分布。

二、算法解析

1.信息增益

“信息熵”(information entropy)是度量样本集合纯度最常用的一种指标。

Ent(D)的值越小,则D的纯度越高。假定离散属性a有V个可能的取值{a^{1},a^{2},...,a^{V}},若使用a来对样本集D进行划分,则会产生V各分支节点,其中第v个分支节点包含了D中所有在属性a上取值为a^{v}的样本,记为D^{v}。我们可根据式(4.1)计算出D^{v}的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重\frac{D^{v}}{D},也就是样本数越多的分支结点的影响越大,于是可计算出用属性a对样本集D进行划分所获得的“信息增益”(information gain)。

一般而言,信息增益越大,则意味着使用属性a来划分所获得的“纯度提升”越大。因此,我们可用信息增益来进行决策树的划分属性选择。其中,我们又要提到一个“条件熵”,“条件熵”表示的是在已知一个随机变量的条件下,另一个随机变量的不确定性。互信息定义信息熵和条件熵的差,他表示的是已知一个随机变量的信息后使得另一个随机变量的不确定性减小的程度。

称为属性 a 的 “固有值" (intrinsic value) [Quinlan, 1 9 9 3 ].属 性 a 的可能取值数目越多(即V 越大),则 IV (a ) 的值通常会越大。

2.连续与缺失值

连续与缺失值的预处理均属于特征工程的范畴。

有些分类器只能使用离散属性,当遇到连续属性时,则需要特殊处理。若先使用某个离散化算法对连续属性离散化后再调用决策树算法。

3. 多变量决策树


斜纹阴影部分表示已确定标记为坏瓜的样本,点状阴影部分表示已确定标记为好瓜的样本,空白部分表示需要进一步划分的样本。在第一次划分的基础上再进行一次划分,满足此条件的样本直接被标记为坏瓜,而不满足词条此的样本还需要进一步划分。在第二次划分的基础上,不满足此条件的样本直接标记为好瓜,而满足此条件的样本还需进一步划分。在第三次划分的基础上继续划分,满足此条件的样本直接标记为好瓜,而不满足此条件的样本直接标记为坏瓜。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值