1.介绍
决策树是一种目标函数为离散值的学习方法(区别于回归),学习到的函数可以用树形表示也可以使用if-then规则来增加可读性。
什么时候考虑使用决策树:(1)实例可以描述为属性-值对,即监督学习
(2)目标函数是离散值
(3)数据可能包含噪声和缺失值
决策树表示实例属性值上约束合取的析取,这句话比较难理解,可以看一下下面图中的例子:
那么就有三个问题:(1)如何确定属性判断条件
(2)如何确定切分属性顺序
(3)什么时候停止节点的划分
1.1.如何确定属性判断条件
依赖于属性类型(标称顺序连续)和切分方式(二分类和多分类),二分类与多分类的区别如下图:
1.2.如何确定切分属性顺序
首先先介绍一个概念:结点纯净度的度量,就是指一个结点相同类型的数据多则该节点较纯净。
如果将纯净度这一指标量化表示有三个度量标准:基尼系数、熵、误分类误差
(1)基尼系数