决策树一类基本的回归于分类问题
一般包括特征选择,决策树的生成,和决策树的剪枝。
决策树的生成对应了模型的局部选择,剪枝对应了模型的全局选择。
使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
参考文献
一、特征选择
一般就是就是基于信息论的,信息增益和信息增益率算法。其中ID3采用的是信息增益算法,C4.5算法是采用了启发式方法,首先候选划分属性中找出信息增益高于平均水平的属性(这样保证了大部分好的的特征),再从中选择增益率最高的(又保证了不会出现编号特征这种极端的情况)。
基本思路就是,每次进行决策时,希望决策后的集合的纯度最高,也就是新的集合的信息熵最小。
- 两种计算纯度方法的对比
- 信息增益准则其实是对可取值数目较多的属性有所偏好。因为可以获得最大的纯度,可能会分为最多的类。
- 信息增益比,相当于为原有的方法添加了损失项,会更趋向于选择少分类的项。(信息增益/特征A的熵)
另外CART算法采用的基尼系数衡量纯度。 G