0004-数据清洗

数据清洗是数据仓库建设的重要环节,包括空值处理、数据格式处理、枚举值处理、字段类型处理、注释处理、敏感数据处理和数据单位统一等。空值处理通常使用默认值或中位数填充;数据格式需统一,如日期字段格式化为yyyy-MM-dd;枚举值处理确保不同系统间含义一致;字段类型统一避免数据类型冲突;补充业务库的注释;敏感数据加密确保安全;单位统一防止计算错误;逻辑错误清洗依据业务规则进行校验。
摘要由CSDN通过智能技术生成

在我们想尽各种办法把数据弄进数据仓库ods层后,接下来的事情就比较有意思了,并且比较重要,对后续的数据模型建设,数据质量的保证,甚至影响管理层的决策(就问你怕不怕?)

那么,对于ETL过程中的数据清洗,你一般会怎么做呢?但凡你真正的做过数仓,我认为这些都是轻车熟路的,因为这是数据研发的必经之路

我在对候选人进行考察的时候,也经常会问到这个问题,主要是看一下候选人有没有真实工作经验,然后在开发过程中有没有独立思考,并且知其然更知其所以然,但是候选人回答的都比较片面,比如只是处理空值,可能是公司数据质量的原因,但是就算公司业务库数据质量比较高,我们也应该需要全面的了解一些数据清洗规范。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据私房菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值