前言 : 决策树是什么?可以干什么用?
决策树是一种基本的分类与回归方法。本章主要讨论分类的决策树。决策树模型呈树形结构,分类问题中,表示基于特征对实例进行分类的过程。基于训练数据学习决策树时,根据损失函数最小原则建立决策树。决策树学习包含3个步骤:特征选择、决策树生成和决策树修剪。
1、 决策树模型
分类决策树由结点和有向边组成。结点类型由:内部结点和叶节点组成。内部结点表示一个特征或者属性,叶节点表示一个类。从根节点开始,对实例进行测试,根据测试结果,将实例分配到子结点,每一个子结点对应一个特征的取值,直到分配到叶节点,最后实例分到叶结点的类中。
提到一点,由决策树从根结点到叶结点的每一条路径构建一条规则:路径上的内部结点对应着规则条件,而叶节点的类对应着规则的结论。决策树的路径是互斥且完备的。
2、 决策树学习
决策树学习的本质是从训练集中归纳出一组分类的规则。我们需要找到一个与训练数据矛盾较少的决策树,同时具有很好的泛化能力。决策树的学习策略是以损失函数最小化。所以当损失函数确定以后,学习问题就转换成了在损失函数意义下选择最优决策树的问题。但从所有可能的决策树中找到最优决策树是一个NP完全问题(世界7大数学难题之一),所以通常我们得到的是次最优的
1) 决策树的生成: