建立决策树的关键是在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有三种算法:
ID3算法,核心:信息增益
C4.5—ID3的改进,核心:信息增益比
CART,核心:基尼指数
ID3算法
核心:信息增益
在决策树中,存在多个特征,信息增益高,说明该特征比较重要,因为他带来的信息量变化大。
ID3算法例题:
ID3算法存在的缺点:
(1)ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大)
(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。
(3)只有树的生成,容易过拟合
CART算法:
CART与其他算法的区别
CART算法即可以执行分类任务也可以执行回归任务,ID3和C4.5只能执行分类任务。
CART算法生成的决策树为二叉树,其它两种算法生成的决策树为多叉树