数据挖掘导论(3)

第四章 分类:基础概念、决策树与模型评估

分类任务的输入是一个元组(x,y),x是属性集,y是特殊属性(类标号)。
分类(classification) 就是通过学习得到一个目标函数(target function) f,把每个属性映射到一个预先定义的类标号y。 (把属性集映射到一个类标号)
目标函数也称分类模型(classification model),可用于:

  • 描述性建模:列出所有元组,并说明那些属性决定特殊属性。
  • 预测性建模:给定属性集,自动得到特殊属性。
    在这里插入图片描述

4.2 解决分类问题的一般算法
分类技术是根据输入数据集建立分类模型的系统方法。
分类法的例子包括:

  • 决策树分类法
  • 基于规则的分类法
  • 神经网络
  • 支持向量机
  • 朴素贝叶斯分类法
    这些技术都使用一种学习方法(learning algorthm) 确定分类模型。训练算法的主要目标就是建立具有良好泛化能力的模型,即能够准确预测类标号的模型。
    在这里插入图片描述

分类模型的性能根据模型正确和错误预测检验记录计数进行评估,这些计数存放在称作混淆矩阵(confusion matrix) 的表格中。p106 二元类混淆矩阵对角线元素之和为预测成功的数目。

性能度量(performance metric),如**准确率(accuracy)**能用一个数汇总不同模型的性能。也可以用错误率(error rate)。

4.3决策树归纳

决策树(decision tree)

  • 根结点(root node):没有入边,则有出边
  • 内部结点(internal node)
  • 叶结点(leaf node)终结点(terminal node):恰有一条入边,但没有初边。
    在决策树中,每个叶结点都赋予一个类标号。**非终结点(non-terminal node)**包含属性测试条件。

从树的根节点开始,将检测条件用检测记录,根据检测结果选择合适的分支。沿该分支或者到达另一个内部结点,使用新的检试条件,或者到达一个叶结点。到达叶结点之后,叶结点的类称号就被赋值给

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值