- 决策树是一种基本的分类与回归方法,从分类来说,svm也用于分类,我们为什么要用决策树呢?
a. 决策树一般是模拟人类的行为,数据和算法更便于理解
b. 决策树不是黑盒,能让你看清他是怎么工作和解释数据的
下面是关于是否提供贷款给个人的一个决策树,简单明了
为了得到这课决策树,我们的训练数据类似下面的表格,只列了一点,需要更多数据完成训练:
现在的关键问题在于如何选取每一层的节点,原则在于尽量分得更明确,也就是减少信息的混乱程度。关于信息的混乱程度,信息学里叫做熵(Entropy),下面形象的说一下
- 熵、信息增益和基尼系数
2.1 所谓熵也就是信息的不确定性,也就是混乱程度,举个例子便于理解。
我们玩一个大转盘,有32个格子,分别标了1-32的数字,格子大小都一样,那么转动以后每个格子被指针指到的概率也是一样的。那么在转盘转动之前我们要下注的话就很纠结了,随便下哪一个都一样。这时候整个系统的信息是非常混乱无序的。