第四章 分类:基础概念、决策树与模型评估
分类任务的输入是一个元组(x,y),x是属性集,y是特殊属性(类标号)。
分类(classification) 就是通过学习得到一个目标函数(target function) f,把每个属性映射到一个预先定义的类标号y。 (把属性集映射到一个类标号)
目标函数也称分类模型(classification model),可用于:
- 描述性建模:列出所有元组,并说明那些属性决定特殊属性。
- 预测性建模:给定属性集,自动得到特殊属性。
4.2 解决分类问题的一般算法
分类技术是根据输入数据集建立分类模型的系统方法。
分类法的例子包括:
- 决策树分类法
- 基于规则的分类法
- 神经网络
- 支持向量机
- 朴素贝叶斯分类法
这些技术都使用一种学习方法(learning algorthm) 确定分类模型。训练算法的主要目标就是建立具有良好泛化能力的模型,即能够准确预测类标号的模型。
分类模型的性能根据模型正确和错误预测检验记录计数进行评估,这些计数存放在称作混淆矩阵(confusion matrix) 的表格中。p106 二元类混淆矩阵对角线元素之和为预测成功的数目。
性能度量(performance metric),如**准确率(accuracy)**能用一个数汇总不同模型的性能。也可以用错误率(error rate)。
4.3决策树归纳
决策树(decision tree)
- 根结点(root node):没有入边,则有出边
- 内部结点(internal node)
- 叶结点(leaf node)或终结点(terminal node):恰有一条入边,但没有初边。
在决策树中,每个叶结点都赋予一个类标号。**非终结点(non-terminal node)**包含属性测试条件。
从树的根节点开始,将检测条件用检测记录,根据检测结果选择合适的分支。沿该分支或者到达另一个内部结点,使用新的检试条件,或者到达一个叶结点。到达叶结点之后,叶结点的类称号就被赋值给