【数据挖掘】第四章 分类与预测 4.1-4.2数据的分类与预测方法

本节课介绍了数据预处理的重要性,特别是数据清理,包括处理缺失数据、噪音数据的方法,如分箱、聚类和回归分析。接着讨论了数据清理的延伸应用,如用户画像和大数据杀熟现象。然后,引入了数据的分类与预测方法,通过交通流量预测、政治事件预测和邮件分类等案例展示了其应用,并概述了分类与预测的常见方法,如决策树和朴素贝叶斯算法。
摘要由CSDN通过智能技术生成

这节课我们学习3.1节数据预处理的目标和3.2节数据清洗。

在进行数据挖掘之前,需要对现实世界中的案例数据进行预处理,其原因就是绝大部分的实际数据都是脏的。这个脏的主要表现层面有如下几个方面,一,数据是不完全的,即某些数据对象在一些属性值上是空的,比如调查问卷,大学生每个月零花钱的数量,部分同学不愿意填写,因此就形成了扣属性值。二,数据含有错误或者固定点,比如问卷,让同学填写每个月工资多少,同学填错或者恶意回答填写了负数。三,属性值存在微智特性,比如前面写年龄是42岁,但是后面的出生年月相矛盾,或者是多数据源进行融合的时候,以前的等级是一,二,三,而现在的数据等级划分为 abc 。还有一些可能是由于存在重复记录导致的冗余信息,比如之前的数据库记录为姓名属性,现在的数据库记录为姓氏和名字两个属性。

以上种种都表明数据源,特别是多元易购数据进行融合后的数据样本,在进行数据分析与挖掘之前,需要进行预处理操作。数据预处理的主要任务包括如下内容,首先是数据清理,填充缺失项,删除噪音或者平滑噪音,纠正不一致数据等等。其次是将多个数据源进行集成,包含了异构数据的集成或者是简单的文件。包括规范化等操作。

第四,数据规约。例如维度规约,数值规约以及数据压缩等等。最后是数据的离散化和概念分层的内容。这五个预处理任务也就构成了第三章的主体学习内容。

下面我们先来学习数据清理的方法和技术。数据清洗就是针对之前所说的不完整数据,不一致数据以及变相丢失的数据进行处理。首先来看缺失数据的处理方法,如果样本量足够大,并且缺失属性的数据集数量不大的时候,为了简便起见,我们可以直接删除不完整的数据源组,如果缺失属性的部分数据比例比较大,则不能直接粗暴删除了。此时最准确的方法就是对缺失数据源进行溯源,重新填写相关数据。

但是这种方法在很多场合下都是无法实现的,因此可以采取替代的另外的方法,即自动填充方法。自动填充的时候,可以填充为系统设置的全局变量,或者用数据在该数据上的取值均值来替代,还可以使用同一句类组别中的值,或者是采用推理办法推测出来的可能值去替代。下面以一个实例来进行举例说明。假设现在需要调研1000名大学生每个月的零花钱数量,其中500个学生每月零花钱都是空白,需要进行填充。第一种方法用500个完整的数据中零花钱的均值来替代空值,但是这种方法不太准确。第二种方法可以对学生群体进行籍贯划分,把缺失值替换成相同籍贯学生群体的零花钱群值。显然第二种方法比较准确。其次,我们来看噪音数据的处理方法。噪音数据的产生原因有很多,比如数据收集方法错误,录入错误,传输错误或者不一致的命名管理等等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能lab

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值