【数据挖掘】期末复习第三章

最新推荐文章于 2024-07-11 09:10:12 发布

一个很菜的小猪

最新推荐文章于 2024-07-11 09:10:12 发布

阅读量442

点赞数

分类专栏：数据挖掘文章标签：数据挖掘决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51293984/article/details/125322112

版权

数据挖掘专栏收录该内容

5 篇文章 3 订阅

订阅专栏

第三章分类

1. 分类的定义

分类是对数据集进行学习并构造一个拥有预测功能的分类模型，用于预测未知样本的类标号，如：根据电子邮件的标题和内容预测该邮件是否为垃圾邮件。分类和回归都有预测的功能，但是：分类预测的输出为离散或标称的属性；回归预测的输出为连续属性值，例如：预测未来某银行客户会流失或不流失，这是分类任务，预测某商场未来一年的总营业额，这是回归任务。

2. 分类的应用领域

目前分类与回归方法已被广泛应用于各行各业，如：在金融领域中，分类器被用于预测股票未来的走向。在医疗诊断中，预测疾病的诊断。在市场营销中，利用历史的销售数据，预测某些商品是否可以销售、预测广告应该投放到哪个区域等。

3. 分类的一般步骤

(1) 将数据集划分为训练集和测试集；
(2) 对训练集进行学习，构建分类模型；（这个模型可以是决策树或分类规则等）
(3) 用分类模型对测试集进行分类；评估该分类模型的分类准确度及其它性能；
(4) 使用分类准确度高的分类模型对类标号未知的未来样本数据进行分类。

4. 分类算法归类

分类方法：

基于决策树的分类方法
贝叶斯分类方法
最近邻分类方法
神经网络方法
支持向量机等

回归方法：

线性回归
非线性回归
逻辑回归等

5. 决策树分类算法

ID3、C4.5、CART等

6. ID3决策树

ID3 分类算法使用信息增益作为属性的选择标准。其基本思想如下：首先检测所有属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支，再对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一个类别的数据为止。最后得到一棵决策树，它可以用来对新的样本进行分类。

信息熵的定义：

用概率去算
请添加图片描述

信息增益的定义：

划分前-划分后
请添加图片描述

7. C4.5算法

特点：

能够处理连续型属性数据和离散型属性数据
使用信息增益率作为决策树的属性选择标准

分裂信息：

请添加图片描述

信息增益率：

请添加图片描述

8. CART算法

Gini系数：

请添加图片描述

例题：

请添加图片描述

答案：

一个很菜的小猪

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【数据挖掘】期末复习第三章

分类是对数据集进行学习并构造一个拥有预测功能的分类模型，用于预测未知样本的类标号，如：根据电子邮件的标题和内容预测该邮件是否为垃圾邮件。分类和回归都有预测的功能，但是：分类预测的输出为离散或标称的属性；回归预测的输出为连续属性值，例如：预测未来某银行客户会流失或不流失，这是分类任务，预测某商场未来一年的总营业额，这是回归任务。目前分类与回归方法已被广泛应用于各行各业，如：在金融领域中，分类器被用于预测股票未来的走向。在医疗诊断中，预测疾病的诊断。在市场营销中，利用历史的销售数据，预测某些商品是否可以销售、预
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。