【数据挖掘】期末复习 第三章

第三章 分类

1. 分类的定义

分类是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如:根据电子邮件的标题和内容预测该邮件是否为垃圾邮件。分类和回归都有预测的功能,但是:分类预测的输出为离散或标称的属性;回归预测的输出为连续属性值,例如:预测未来某银行客户会流失或不流失,这是分类任务,预测某商场未来一年的总营业额,这是回归任务。

2. 分类的应用领域

目前分类与回归方法已被广泛应用于各行各业,如:在金融领域中,分类器被用于预测股票未来的走向。在医疗诊断中,预测疾病的诊断。在市场营销中,利用历史的销售数据,预测某些商品是否可以销售、预测广告应该投放到哪个区域等。

3. 分类的一般步骤

(1) 将数据集划分为训练集和测试集;
(2) 对训练集进行学习,构建分类模型;(这个模型可以是决策树或分类规则等)
(3) 用分类模型对测试集进行分类;评估该分类模型的分类准确度及其它性能;
(4) 使用分类准确度高的分类模型对类标号未知的未来样本数据进行分类。

4. 分类算法归类

分类方法:

  • 基于决策树的分类方法
  • 贝叶斯分类方法
  • 最近邻分类方法
  • 神经网络方法
  • 支持向量机等

回归方法:

  • 线性回归
  • 非线性回归
  • 逻辑回归等
5. 决策树分类算法

ID3C4.5、CART等

6. ID3决策树

ID3 分类算法使用信息增益作为属性的选择标准。其基本思想如下:首先检测所有属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一个类别的数据为止。最后得到一棵决策树,它可以用来对新的样本进行分类。

信息熵的定义:

用概率去算
请添加图片描述

信息增益的定义:

划分前-划分后
请添加图片描述

7. C4.5算法

特点:

  • 能够处理连续型属性数据和离散型属性数据
  • 使用信息增益率作为决策树的属性选择标准
分裂信息:

请添加图片描述

信息增益率:

请添加图片描述

8. CART算法
Gini系数:

请添加图片描述

例题:

请添加图片描述
请添加图片描述
答案:
请添加图片描述

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值