数据探索(1)数据质量分析

数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。
在常见的数据挖掘工作中,脏数据包括如下内容:

  • 缺失值
  • 异常值
  • 不一致的值
  • 重复的值以及包含特殊符号的数据

缺失值分析

数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。
(1)缺失值产生的原因
1)有些信息暂时无法获取,或者获取信息的代价太大
2)有些信息被遗漏。(输入时认为不重要、忘记填写或者对数据理解错误等认为因素,也可能是数据采集设备的故障,存储介质的故障,传输媒体的故障等非人为原因引起)
3)属性值不存在
某些情况下缺失值并不意味着数据有错误。如一个未婚者的配偶姓名,一个儿童的固定收入。
(2)缺失值的影响
1)数据挖掘建模将丢失大量的有用信息
2)数据挖掘模型所表现出的不确定性更加显著,模型中蕴涵的规律更加难以把握
3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出
(3)缺失值分析
使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数和缺失率等
从总体上来说,缺失值的处理分为删除存在缺失值的记录、
对可能值进行插补 和不处理三种情况。

异常值分析

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。
异常值也称为离群点,异常值的分析也称为离群点分析。
(1)简单统计量分析
对变量做描述性统计,观测数据是否是在合理的范围
(2)3σ原则
如果数据服从正态分布,则在距离平均值3σ之外的值出现的概率极低
(3)箱形图分析
异常值通常被定义为小于下四分位数减去1.5倍的四分位数间距或者大于上四分位数加上1.5倍的四分卫间距之外的数据。
异常值的标准以四分位数局和四分位间距为基础,具有一定的鲁棒性,异常值对其不会昌盛影响。由此可见,箱形图识别异常值的结果比较客观,在识别异常值方面有一定的优越性。

– 在python的pandas库中,只需要读入数据,然后使用describe()函数就可以查看数据的基本情况。

一致性分析

数据不一致是指数据的矛盾性、不相容性。
不一致的数据的产生主要发生在数据集成的过程中,这可能是由于被挖掘数据是来自于不同的数据源、对于重复存放的数据未能进行一致性更新造成的。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值