作者|石秀峰 全文共3368个字,建议阅读8分钟
前言
之前的一篇爆文:《数据治理:90%的人搞不清的事情》,对数据管理领域容易混淆的8组概念进行了澄清,避免在实际使用中“混用”、“套用”、“随便用”......
其实,数据领域容易混淆的概念又何止这8组,今天再给大家介绍一组:数据清理VS数据整理。
数据清理、数据整理也统称数据处理或数据准备,它是数据工作最基础的部分,不论数据仓库、数据治理、数据分析、数据挖掘,都离不开数据清理和整理,这也是每个数据项目耗费工作量最大的任务,平均占据了数据项目的60%以上的工作量。
数据清理和整理是数据分析、挖掘的前提,也是数据治理工作的重点内容。由于这两项任务大多数情况下是放在一起做的,因此很多人不知道或没有根本在意过这两个名词到底是不是一回事?即使你在一些专业的数据管理书籍中也难以找到他们的区别。
那,数据清理 = 数据整理 吗?
可能有人会说,“把事干好不就得了,纠结概念干吗?”
但是,概念都搞不清楚,有可能把事情做好吗?
数据治理的名词术语,我要和你死磕到底!
数据清理和数据整理到底是不是一回事?
清理,整理一字之差,两个“动词”,代表了两个截然不同的操作。
如果你不清楚数据清理和数据整理的区别,我先给你举个例子:清理房间VS整理房间。
一般我们说,“XX,你去把房间清理一下”,意思是让你去把房间做个大扫除,垃圾清理掉。清理是要扔东西,清理后,东西没了。
而如果说,“XX,你去把房间整理一下“,意思中不仅含有打