如何做好数据加工?

13825820-d638ddc19beb4465.jpg

大家都知道,在进行数据分析的时候需要先挖掘数据和存取数据,这样才能够为数据分析工作打好基础。但是在一般情况下,数据挖掘出来之后是有很多无用重复的数据的,如果将这些数据直接分析的时候会影响分析结果,这就需要对数据进行加工。如果加工得好,那么出来后的数据是一个简洁、规范、清晰的样本数据。数据加工的步骤通常包括数据抽取、数据转换、数据计算。下面就跟大家好好普及一下如何做好数据加工。

首先说说数据加工中的数据抽取吧,数据抽取就是对数据库中现有字段进行整合加工,这样就能够形成分析需要的数据。这种过程就叫做数据抽取。一般来说,数据抽取工作就是字段拆分、字段合并、字段匹配组成。什么是字段拆分哦?字段拆分就是为了截取某一字段中的部分信息,将该字段拆分成两个或多个字段。然后就是字段合并,字段合并就是将若干字段合成为一个新的字段,或者将字段值与文字、数字等组合形成新的字段。最后就是字段匹配,字段匹配就是从具有相同字段的关联数据库中获取所需数据,一般来说字段匹配要求原数据库与关联数据库至少存在一个关联字段,根据关联字段实现批量查询匹配对应的数据。

接着说说数据转换。由于不同来源的数据可能存在不同的结构,数据转换主要指将数据转换成规范、清晰、又易于分析的结构。一般来说,数据转换有结构转换和行列转换。结构转换就是在数据分析中,根据不同的业务需求,需要对数据进行结构转换。并且主要指一维数据表与二维数据表之间的转换。然后就是行列转换。这是 在进行数据分析报表时,常常要从不同的维度观察数据,例如从时间的维度查看汇总数据,或从地区的维度观查汇总数据,这样需要把行列数据进行转换。

最后说说数据计算。有有时候数据库中没有我们需要的字段,需要通过现有字段进行计算之后才能获得。我们在进行数据计算的时候主要有简单计算和日期时间的计算。简单计算就是对数据值进行加、减、乘、除等运算并产生新的字段。而日期、时间数据计算就是在企业管理中,经常会涉及到日期和时间数据的管理分析,它也是数据库中的一类重要数据。

上述的内容就是对于数据清洗工作的具体分析了,大家在进行数据分析的时候一定要注意好上面提到的内容,这样才能够做好数据分析,尤其是注意好数据的转换,这是数据加工中至关重要的内容,希望这篇文章能够给大家带来帮助。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据典型案例:数据治理平台的建设与实践全文共17页,当前为第1页。大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第1页。大数据典型案例:数据治理平台的建设与实践 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第1页。 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第1页。 背景 作为一家高度数字化和技术驱动的公司,美团非常重视数据价值的挖掘。在公司日常运行中,通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持。经过多年的发展,美团酒旅内部形成了一套完整的解决方案,核心由数据仓库+各种数据平台的方式实现。其中数据仓库整合各业务线的数据,消灭数据孤岛;各种数据平台拥有不同的特色和定位,例如:自助报表平台、专业数据分析平台、CRM数据平台、各业务方向绩效考核平台等,满足各类数据分析挖掘需求。早期数据仓库与各种数据平台的体系架构如图1所示: 图1 酒旅早期各数据平台和数据仓库体系架构图 图1所示的体系架构,在业务需求的满足上非常高效,但在长时间的使用过程中,也产生了如下一些问题: · 各数据平台或平台内不同模块的指标定义不一致。 · 各数据平台或平台内不同模块指标计算口径不一致。 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第2页。大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第2页。· 各数据平台或平台内不同模块指标数据来源不一致。 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第2页。 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第2页。 上述这些问题总结归纳起来,就是指标数据不一致的问题,最终带来的后果是指标数据可信度底,严重影响分析决策。通过后续追踪分析,上述问题的由来,主要是不同业务线的数据分析人员、数据开发人员,以及不同的产品之间,缺乏有效的沟通,也没有一个统一的入口,来记录业务的发生和加工过程。在加上人员的流动,长时间积累之后就产生了这些问题。针对这些问题,酒旅内部启动了数据治理项目,通过建设一个专业数据治理平台,实现指标维度及数据的统一管理,也探索一套高效的数据治理流程。 挑战 在建设起源数据治理平台的过程中,主要面临的挑战如下: · 起源数据治理平台应该在架构中的哪个位置切入,减少对原有系统的侵入,并实现数据治理目标。 · 探索一套简洁高效的管理流程,实现指标维度信息统一管理,保证信息的唯一性、正确性。 · 整合各种存储引擎,实现一套高并发、高可用的数据唯一出口。 · 做好各业务线间的信息隔离和管理,确保数据安全。 解决思路 为了达成数据治理的目标,起源数据治理平台就必须记录下业务发展过程,并映射到数据加工数据提取,规范约束这些过程。因此起源数据治理平台归纳到数据治理层,该层就位于数据仓库层(或数据集市层)之上,数据应用层之下起到桥梁的作用,而且提供一系列规则,改变原来无序交互方式,将数据仓库层和数据应用层的交互变为有序的、可查询、可监控。新的体系架构如图2所示: 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第3页。大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第3页。 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第3页。 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第3页。 图2 数据治理后的新体系架构图 如上图所示,在新的体系架构下:对于数据仓库层,起源数据治理平台综合业务组织形式、指标数据来源、上层产品的使用及查询的效率,指导数据仓库模型的建设;对于应用层的产品,业务元数据信息及数据信息都是由起源数据治理平台提供,保证了各数据产品获取到的信息一致,而且还简化了应用层产品数据获取成本,也降低了对原有系统的侵入。 平台架构 起源数据治理平台核心是保证数据一致,在数据安全的前提下,尽可能提升数据分发能力。因此平台内部有着极其复杂的关系,需要在建设过程中进行抽象,形成具有相对单一功能的模块;合理地组织模块的层级和连接关系,降低平台的开发难度,并提升平台的可维护大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第4页。大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第4页。性。平台架构如图3所示,展示了平台的内部模块组织方式。 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第4页。 大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第4页。 图3 起源数据治理平台架构图 如上图所示起源数据治理平台在功能模块上由数据存储、数据查大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第5页。大数据典型案例:数据治理平台的建设与实践全文共17页,当前为第5页。询、数据缓存、元数据管理、业务管理、安

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值