数据清洗第一章知识点

最新推荐文章于 2022-12-06 11:16:27 发布

weixin_52718998

最新推荐文章于 2022-12-06 11:16:27 发布

阅读量502

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52718998/article/details/128176004

版权

一：数据清洗的背景

1. 数据质量

数据质量是指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求的程度。

2. 数据质量的评价指标

数据质量的评价指标主要包括数据的准确性、完整性、简洁性及适用性，其中数据的准确性、完整性、简洁性是为了保证数据的适用性。
适用性是评价数据质量的核心准则。

3. 数据质量的问题分类

数据质量的问题可以分为两类：一类是基于数据源的“脏”数据分类；另一类是基于数据清洗方式的“脏”数据分类。
①基于数据源的“脏”数据质量问题可以分为两类，即单数据源问题和多数据源问题。
②从数据清洗方式的设计者角度看，可以将“脏”数据分为“独立型“脏”数据”和“依赖型“脏”数据”两类。其中依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。

二：数据清洗的定义

数据清洗技术是提高数据质量的有效方法。
在数据仓库环境中，数据清洗主要包括数据的清洗和结构的转换两个过程。

三：数据清洗的原理

数据清洗的目的是解决“脏”数据问题，即不是将“脏”数据洗掉，而是将“脏”数据洗干净。

四：数据清洗的基本流程

数据清洗的基本流程一共分为五个步骤，分别是数据分析，定义数据清洗的策略和规则，搜寻并确定错误实例，纠正发现的错误以及干净数据回流。

五：数据清洗的策略

按照数据清洗的实现方式与范围划分，一般分为手工清洗策略、自动清洗策略、特定应用领域的清洗策略以及与特定应用领域无关的清洗策略。

六：常见的数据清洗方法

常见的数据质量问题主要包括缺失值，重复值以及错误值等问题。
①缺失值的清洗方法主要分为两类，即忽略缺失值数据和填充缺失值数据。
②目前清洗重复值的基本思想是“排序和合并”。

weixin_52718998

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据清洗第一章知识点

一：数据清洗的背景1. 数据质量数据质量是指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求的程度。2. 数据质量的评价指标数据质量的评价指标主要包括数据的准确性、完整性、简洁性及适用性，其中数据的准确性、完整性、简洁性是为了保证数据的适用性。适用性是评价数据质量的核心准则。3. 数据质量的问题分类数据质量的问题可以分为两类：一类是基于数据源的“脏”数据分类；另一类是基于数据清洗方式的“脏”数据分类。 ①基于数据源的“脏”数据质量问题可以分为两类，即单数据源问题和
复制链接

扫一扫

weixin_52718998 CSDN认证博客专家 CSDN认证企业博客

码龄4年

2: 原创

172万+: 周排名

149万+: 总排名

1338: 访问

: 等级

21: 积分

1: 粉丝

1: 获赞

2: 评论

2: 收藏

私信

关注

热门文章

最新评论

数据清洗第二章知识点
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

最新文章

数据清洗第二章知识点

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。