大数据之数据清理的终极指南

我花了几个月的时间分析来自传感器、调查及日志等相关数据。无论我用多少图表,设计多么复杂的算法,结果总是会与预期不同。更糟糕的是,当你向首席执行官展示你的新发现时,他/她总会发现缺陷,你的发现与他们的理解完全不符- 毕竟,他们是比你更了解领域的专家,而你只是数据工程师或开发人员。

你为你的模型引入了大量脏数据,没有清理数据,你告诉你的公司用这些结果做事情,结果肯定是错的。数据不正确或不一致会导致错误的结论,因此,清理和理解数据对结果的质量都会有很大影响。

【大数据开发学习资料领取方式】:加入大数据技术学习交流群458345782,点击加入群聊,私信管理员即可免费领取

垃圾进垃圾出

实际上,简单算法的作用可能超过复杂的算法,因为它被赋予了足够高质量的数据。

质量数据优于花哨的算法

出于这些原因,重要的是要有一个分步指南,一个备忘单。首先,我们想要实现的目标是什么?质量数据是什么意思?质量数据的衡量标准是什么?了解你想要完成的任务,在采取任何行动之前,你的最终目标至关重要。

目录:

· 数据质量(合法性,准确性,完整性,一致性)

· 工作流程(检查,清洁,验证,报告)

· 检查(数据分析,可视化,软件包)

· 清理(无关数据,重复数据,类型转换,语法错误)

· 验证

· 总结

数据质量

除了维基百科上的质量标准之外,我找不到更好的解释质量标准。所以,我将在这里总结一下。

合法性

数据符合定义的业务规则或约束的程度。

· 数据类型约束:特定列中的值必须是特定的数据类型,例如,布尔值,数字,日期等。

· 范围约束:通常,数字或日期应在特定范围内。

· 强制约束:某些列不能为空。

· 唯一约束:字段或字段组合在数据集中必须是唯一的。

· Set-Membership约束:列的值来自一组离散值,例如枚举值。例如,一个人的性别可能是男性或女性。

· 外键约束:在关系数据库中,外键列不能具有引用的主键中不存在的值。

· 正则表达式模式:必须采用特定模式的文本字段。例如,电话号码可能需要具有模式(999)999-9999。

· 跨领域验证:跨越多个领域的某些条件必须成立。例如,患者出院的日期不能早于入院日期。

准确性

数据接近真实值的程度。

虽然定义所有的值允许出现无效值,但这并不意味着它们都是准确的。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值