数据探索（1）数据质量分析

最新推荐文章于 2024-04-29 02:34:12 发布

wx740851326

最新推荐文章于 2024-04-29 02:34:12 发布

阅读量1.9k

点赞数 1

分类专栏： python-机器学习 Python数据分析与数据挖掘文章标签：数据分析数据探索

本文链接：https://blog.csdn.net/wx740851326/article/details/84560984

版权

python-机器学习同时被 2 个专栏收录

32 篇文章 0 订阅

订阅专栏

Python数据分析与数据挖掘

13 篇文章 1 订阅

订阅专栏

数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据，脏数据一般是指不符合要求，以及不能直接进行相应分析的数据。
在常见的数据挖掘工作中，脏数据包括如下内容：

缺失值
异常值
不一致的值
重复的值以及包含特殊符号的数据

缺失值分析

数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。
（1）缺失值产生的原因
1）有些信息暂时无法获取，或者获取信息的代价太大
2）有些信息被遗漏。（输入时认为不重要、忘记填写或者对数据理解错误等认为因素，也可能是数据采集设备的故障，存储介质的故障，传输媒体的故障等非人为原因引起）
3）属性值不存在
某些情况下缺失值并不意味着数据有错误。如一个未婚者的配偶姓名，一个儿童的固定收入。
（2）缺失值的影响
1）数据挖掘建模将丢失大量的有用信息
2）数据挖掘模型所表现出的不确定性更加显著，模型中蕴涵的规律更加难以把握
3）包含空值的数据会使建模过程陷入混乱，导致不可靠的输出
（3）缺失值分析
使用简单的统计分析，可以得到含有缺失值的属性的个数，以及每个属性的未缺失数、缺失数和缺失率等
从总体上来说，缺失值的处理分为删除存在缺失值的记录、
对可能值进行插补和不处理三种情况。

异常值分析

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。
异常值也称为离群点，异常值的分析也称为离群点分析。
（1）简单统计量分析
对变量做描述性统计，观测数据是否是在合理的范围
（2）3σ原则
如果数据服从正态分布，则在距离平均值3σ之外的值出现的概率极低
（3）箱形图分析
异常值通常被定义为小于下四分位数减去1.5倍的四分位数间距或者大于上四分位数加上1.5倍的四分卫间距之外的数据。
异常值的标准以四分位数局和四分位间距为基础，具有一定的鲁棒性，异常值对其不会昌盛影响。由此可见，箱形图识别异常值的结果比较客观，在识别异常值方面有一定的优越性。

– 在python的pandas库中，只需要读入数据，然后使用describe()函数就可以查看数据的基本情况。

一致性分析

数据不一致是指数据的矛盾性、不相容性。
不一致的数据的产生主要发生在数据集成的过程中，这可能是由于被挖掘数据是来自于不同的数据源、对于重复存放的数据未能进行一致性更新造成的。

wx740851326

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
数据探索（1）数据质量分析

数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据，脏数据一般是指不符合要求，以及不能直接进行相应分析的数据。在常见的数据挖掘工作中，脏数据包括如下内容：缺失值异常值不一致的值重复的值以及包含特殊符号的数据缺失值分析数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。（1）缺失值产生的原因1）有些信息暂时无法获取，或者获取信息的代价太大2）有些信息被遗漏...
复制链接

扫一扫