数据采集,一切数据管理流程的起点

当前,数字经济成为我国经济发展的新引擎,企业面临以大数据为核心的数字化转型的重要机遇和挑战。同时,伴随着数字化转型的加剧,企业日常运营中产生的数据量成指数级增长,且数据的类型更加多样化,数据应用场景日益繁杂。如何降低企业数字化转型的成本,提高客户、企业、员工的数据体验,成为各企业数字化转型战略的重中之重。

基于面向终端用户考虑,核音智言以DAMA知识体系为理论指导,构建数据中台产品,实现企业数据的“采、存、管、用”,横向贯通企业业务系统数据,打破数据孤岛。而数据采集模块则是数据中台架构的起点。

数据采集目的是将企业各生产业务系统的数据(90%以上均是结构化数据)通过ETL技术转移到数据中台的数据湖中,而从技术角度,主要面向两种业务场景:

一、实时数据场景。

实时数据是指收集后需要立即传递的数据,譬如股票实时价格数据、设备最新传感数据等,这类数据因业务场景需要,需要能实现快速决策,对时效要求较高。

  1. 物联网实时数据采集架构。
    在这里插入图片描述

    物联传感数据存在数据量大、更新频率快的特点,因此一般通过专业的MQTT服务器对数据先行进行缓存,然后再由数据采集模块进行数据消费;也可将MQTT服务器集成到数据采集模块中。

  2. 业务系统实时数据采集架构
    在这里插入图片描述

    针对业务系统的实时数据采集

  • api接口需要业务系统进行改造升级,对业务系统影响较大;相对应的,数据采集模块需要支持api数据传输接收。
  • Logstash方式对业务系统日志文件进行解析处理,对业务系统影响较小;同时作为ELK组件的一部分,可实现对业务系统日志文件的快速解析和检索,实现业务系统的运行中监控。
  • Binlog方式基于数据库日志进行解析,但需要数据库软件支持该方式,相对应的需要在数据采集模块中集成canal等软件,配合实时数据同步。

二、非实时数据。

非实时数据相对于实时数据而言,对时效性要求较低,主要用于业务分析使用,譬如大量的历史存档数据,这些数据在原业务系统中大多时候无法发挥价值,反倒是累赘,而在数据中台中,通过数据计算和分析,则可以重新产生新的价值。
非实时数据的采集目前架构较为成熟,分为现有软件和定制化开发两种采集模式:

  1. 现有软件方式采集。
    以Kettle为代表。Kettle作为成熟的软件,可满足丰富的数据采集需求。然而需要单机安装,同时无法实现定制化。而且集成到数据中台中进行二次开发,无法满足个性化管理需求。

  2. 定制化开发方式采集。
    以阿里开源的DataX为代表,DataX不提供用户操作界面,需要数据中台根据需要进行二次开发和集成,可实现分布式部署管理以及作业监控。

基于多年的数据治理经验,定制化开发数据采集模块,我们可面向不同的业务场景,内置不同的采集渠道,并结合用户需求,智能化实现数据的同步采集需求,为数据管理和治理提供数据起点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值