决策树算法简单个人总结

决策树定义

决策树,顾名思义,就是以树的形式展现出来用于做决策。
下面定义一种游戏“二十个问题”,规则如下:一方脑海中想一个事物,另一方向他提问,最多20个问题,被提问者只能回答是否,提问者逐步缩小范围,最终猜出结果为胜。
决策树的工作原理和上面的游戏类似,用户输入一系列的数据,然后给出结果。

决策树的构造

在构造决策树的时候,首先要解决的问题是如何划分数据。为了找到决定性的特征,划分出最好的结果,我们必须要评估每一个特征。划分完毕后数据将分成几个子集,如果某个子集中所有数据属于同一类型,就不需要继续划分。反之将对子集继续进行划分,直到所有相同类型的数据都在一个子集内。

信息增益

划分数据集的大原则是:将无序的数据变得更加有序。处理这个问题的一种方法就是使用信息论度量信息。在划分数据集之前之后信息发生的变化成为信息增益,我们可以根据每个特征值划分数据集后的信息增益,取他们的最高值就是最好的选择。
集合信息的度量方式成为香农熵或简称为熵。熵定义为信息的期望值,在明确这个概念前,我们需要知道信息的定义。
如果待分类的事务可能划分在多个分类中,则符号 x i x_{i} xi的信息定义为:
l ( x i ) = − log ⁡ 2 p ( x i ) l(x_{i})=-\log_{2}p(x_{i}) l(xi)=log2p(xi)
其中 p ( x i ) p(x_{i}) p(xi)为选择该分类的概率。
为了计算熵,我们需要计算所有类别所有可能值包含的信息期望值,通过下面的公式得到:
H = − ∑ i = 1 n p ( x i ) log ⁡ 2 p ( x i ) H=-\sum_{i=1}^{n}p(x_{i})\log_{2}p(x_{i}) H=i=1np

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值