决策树简介
决策树是一种基本的分类与回归方法。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据利用决策树模型进行分类。决策树学习通常包括三个步骤:特征选择、决策树的生成和决策树的修剪。
用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点,最后将实例分到叶结点的类中。
简单地说,决策树就是一个类似流程图的树形结构,采用自顶向下的递归方式,从树的根节点开始,在它的内部节点上进行属性值的测试比较,然后按照给定实例的属性值确定对应的分支,最后在决策树的叶子节点得到结论。这个过程在以新的节点为根的子树上重复。直到所有新节点给出的结果一致或足以判断分类。
假设给定训练数据集:
学习的目标是根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。决策树学习的算法通常是一个递归地选择最优特征,并根据该特征队训练数据进行分割,使得对各个子集有一个最好的分类的过程。这一过程对应着特征空间的划分和决策树的构建。
生成的决策树可能对训练数据有很好的分类能力,但对未知的测试数据却未必有很好的分类能力,即可能发生过拟合现象。需要对已生成的树自上而下进行剪枝,将树变得更简单,从而使它具有更好的泛化能力。具体地,就是去掉过于细分的叶结点,使其回退到父结点,甚至更高的结点,然后将父结点或更高的结点改为新的叶结点。
汽车特征评估质量
本次使用的是下载的一个包含汽车多个细节的数据集,包括车门数量、后备箱大小、维修成本、安全性能、载人数量等等,来确定一辆汽车的质量。分类的目的是把车辆的质量分为4种类型:不达标、达标、良好、优秀。