决策树算法(DecisionTree)
决策树是机器学习中常用的分类算法
决策树顾名思义是一种树形结构,而我们的任务就是想办法构建出这样一颗树用它来进行分类。
构建过程:
1. 选择一个对象的特征,并根据这一训练集进行分类
2.计算某特征分类结果的混乱程度
(对于对混乱结果的情况评估,使用了的以下方法)
信息熵:
信息熵就是用来衡量一个随机变量取值的不确定性的一个指标,信息熵越大则不确定性越大,信息熵越小则不确定性也就越小。
信息熵的公式:
通常情况下对数以2为底或以e(自然对数)为底,并且我们规定如果pi=0则定义0log0=0。
一个服从两点分布的随机变量的信息熵图像如下图所示:
可以知道,当信息熵趋近于0.5的时候。所得出的信息熵最大。表示了函数的混乱程度很高。即 某一个变量产生结果的的概率是0.5,不产生结果的概率的也是0.5 所以这个变量并不是可以衡量最后特征的重要取值。