大数据之路 ——（一）算法建模中的数据清洗

恒生LIGHT云社区

于 2021-08-05 14:25:42 发布

阅读量366

点赞数

分类专栏：人工智能大数据文章标签：大数据算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44433834/article/details/119416981

版权

在当前大数据的背景下，数据处理占了极大的份额，就像一个西红柿做成西红柿炒鸡蛋，需要经过调料整合，菜料清洗，饭菜加工等等才能发布到生产，不，发送到餐桌。

这里简单分享一下我对数据清洗的理解，其具有很重要的地位，不然面对着脏乱差的西红柿炒鸡蛋，没人愿意下口。

一份未经清洗过的数据一般会存在这些不符合分析要求的问题：比如重复，错误，空值，异常数据等，对于错误数据，因为是业务源头问题，比如性别明明是男却成了女，这些我们无法处理，只能从源端进行规范，就像顾客想吃河南的西红柿，厨房里进的只有山东的，这个厨师没办法解决，只能通知进货商更改。故我们只对另外三个问题进行清洗修改，必须申明一点，所有的清洗都要基于实际业务来做，比如重复，可能业务要的就是重复，你给人家洗掉了，就产生了问题

在这里插入图片描述

一 . 重复

如果实际业务不要重复值，重复值可以直接删除，比如数据库里可以在整合合并时用union而不是union all ，不支持union的可以用主键分组排序取第一个

<

最低0.47元/天解锁文章

恒生LIGHT云社区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据之路 ——（一）算法建模中的数据清洗

在当前大数据的背景下，数据处理占了极大的份额，就像一个西红柿做成西红柿炒鸡蛋，需要经过调料整合，菜料清洗，饭菜加工等等才能发布到生产，不，发送到餐桌。这里简单分享一下我对数据清洗的理解，其具有很重要的地位，不然面对着脏乱差的西红柿炒鸡蛋，没人愿意下口。一份未经清洗过的数据一般会存在这些不符合分析要求的问题：比如重复，错误，空值，异常数据等，对于错误数据，因为是业务源头问题，比如性别明明是男却成了女，这些我们无法处理，只能从源端进行规范，就像顾客想吃河南的西红柿，厨房里进的只有山东的，这个厨师没办法解决，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。