数据清洗

穿衣的香菜君

于 2019-12-11 18:02:33 发布

阅读量1.8k

点赞数 3

分类专栏： #数据分析笔记文章标签：数据清洗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yu5150/article/details/103497134

版权

#数据分析笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

数据清洗的概念

数据清洗的流程

字段选择

数据质量报告

数据清洗主要工作

数据清洗的概念

数据清洗主要是针对数据中的错误值、异常值、缺失值进行处理的过程，以及删除那些取值很多的类别型字段，或者取值一致性程度极高的字段。

数据清洗流程

1.再次确认数据是否拷贝

2.再次确认原始数据中是否具有唯一ID

3.清洗数据中错误值（填写错误、逻辑错误）

4.清洗数据中的异常值

5.清洗数据中的缺失值

字段选择

通常在收集的原始数据中，**将姓名或其他字符串的字段不选入最终分析的数据库中，**如问卷调查中的主观开放题。
在实际项目中，如果客户有历史数据，应提取越多字段的数据越好。
另外，需处理数据整合的问题，如数据单位不一致问题（美元*人民币）、数据重复问题（A和B数据库中都存在一部分重复用户的数据，合并时需剔除）。
字段数据重复：单个字段数据重复、多个字段之间的数据重复

数据清洗主要工作

噪声消除

噪声包括错误值（以类别字段为主）和异常值（针对变量）
噪声会使后期分析结果产生很大偏差，必须对噪声进行有效的识别和处理

缺失值处理

人工处理
软件自动处理

错误值和异常值处理方法**

软件及人工结合的方法

错误值：
无论分类变量还是连续变量，均先检查数据的分布情况，找到错误值。对于分类变量，检查与其他值是否有相似之处，如无，直接处理空值/未知。

异常值：
判断标准：1）最小最大分布法，按从小到大排序，选取最小的5%和最大的95%数据作为异常值；
2）标准分法：平均±3个标准差（1个标准差：68%；2个标准差：95%；3个标准差：99.7%，6 σ：99.9996%）
3)四分位数法：IQR=Q3-Q1,Q1-1.5*IQR～Q3+1.5/*IQR

异常值处理方法：
1）直接视为空值
2）最大、最小、均值代替
3)函数校正法：如回归、决策数等

缺失值处理方法

1.直接忽略法

适合的场景：
1）数据样本量很多时，且包含缺失值的样本数较少时；
2）该样本缺失的字段占总字段一半以上时，可直接删除该样本；
3）在进行分类统计时，如果该样本分类标记为空值，因为该样本无法被归类，可直接删除，尤其是该分类变量是模型分析的关键变量，如是否死亡。

缺点：
方法太过于简单粗暴，当缺失值现象较多时，直接删除会造成大量信息丢失，甚至让整个项目无法进行下去。

2.将缺失值所在字段处理为指示变量

当该字段在所有样本中，有一半以上样本都存在缺失现象时，可将该字段作为指示变量，变量值为：缺失和未缺失

3.人工补充法

适合的场景：
1）缺少较少时，可通过人工从原始数据库再次查询或调查，如让客户再调用底层数据补充缺失的字段，以及人工电话再联络该样本再次询问缺失字段的选项；
2）通过其他数据计算得到，如性别、年龄、省份等字段可通过身份证号获取。

缺点：当缺失值现象较多时，人工成本较高，实际操作压力较大。

4.自动填补法

针对分类变量：
1）以通用的常数值代替，如“未知/缺失”；
2）填入该字段的众数；
3）用其他一个或多个字段预测该缺失值，如收入阶层可通过学历、年龄预测得到。

针对连续变量：
1）填入该字段的众数；
2）均值：所有样本的均值、附近样本的均值；
3）中位值：所有样本的均值、附近样本的中位数；
4）模型预测：通过其他字段与该字段建立模型，预测该缺失字段。

穿衣的香菜君

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。