ETL数据清洗
文章平均质量分 68
道法—自然
不积跬步,无以至千里;不积小流,无以成江海。——荀子
展开
-
博思软件面试的启发:关于数据清洗工作的理解(包括数据清洗是做什么的,为什么要进行数据清洗工作,什么样的数据叫脏数据,脏数据如何进行数据的处理)
数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误...原创 2018-12-04 23:20:43 · 8594 阅读 · 0 评论 -
关于数据清洗的一点补充
在数据的清洗中,首先是需要判断这个数据是脏数据,那么就会有以下几个问题:怎么知道这个数据是脏数据呢?知道这个数据是脏数据之后怎么处理呢?在上家公司里边,对于脏数据的判断,我们是做了可视化之后进行清晰地,也就是首先对数据进行解析,格式转化等,存入数据库中,然后做数据的webUI的展示。当数据展示出来之后,再去前端看那些数据不合适,然后想办法去避免这样的数据的出现,就会去清洗阶段进行优...原创 2018-12-04 23:46:22 · 307 阅读 · 0 评论 -
关于数据预处理的技巧
在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。数据预处理的主要内容包括数据清洗、数据集成、数据变...原创 2018-12-04 23:55:51 · 1229 阅读 · 0 评论 -
关于数据清洗的步骤及方法的理解
数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。(美亚搜data cleaning的结果,可以看到这书还挺贵)我将在这篇文章中,尝试非常浅层次的梳理一下数据清洗过程,供各位参考。照例,先上图:预处理阶段预处理...转载 2018-12-05 00:01:12 · 106516 阅读 · 3 评论