当前,数字经济成为我国经济发展的新引擎,企业面临以大数据为核心的数字化转型的重要机遇和挑战。同时,伴随着数字化转型的加剧,企业日常运营中产生的数据量成指数级增长,且数据的类型更加多样化,数据应用场景日益繁杂。如何降低企业数字化转型的成本,提高客户、企业、员工的数据体验,成为各企业数字化转型战略的重中之重。
基于面向终端用户考虑,核音智言以DAMA知识体系为理论指导,构建数据中台产品,实现企业数据的“采、存、管、用”,横向贯通企业业务系统数据,打破数据孤岛。而数据采集模块则是数据中台架构的起点。
数据采集目的是将企业各生产业务系统的数据(90%以上均是结构化数据)通过ETL技术转移到数据中台的数据湖中,而从技术角度,主要面向两种业务场景:
一、实时数据场景。
实时数据是指收集后需要立即传递的数据,譬如股票实时价格数据、设备最新传感数据等,这类数据因业务场景需要,需要能实现快速决策,对时效要求较高。
-
物联网实时数据采集架构。
物联传感数据存在数据量大、更新频率快的特点,因此一般通过专业的MQTT服务器对数据先行进行缓存,然后再由数据采集模块进行数据消费;也可将MQTT服务器集成到数据采集模块中。
-
业务系统实时数据采集架构
针对业务系统的实时数据采集
- api接口需要业务系统进行改造升级,对业务系统影响较大;相对应的,数据采集模块需要支持api数据传输接收。
- Logstash方式对业务系统日志文件进行解析处理,对业务系统影响较小;同时作为ELK组件的一部分,可实现对业务系统日志文件的快速解析和检索,实现业务系统的运行中监控。
- Binlog方式基于数据库日志进行解析,但需要数据库软件支持该方式,相对应的需要在数据采集模块中集成canal等软件,配合实时数据同步。
二、非实时数据。
非实时数据相对于实时数据而言,对时效性要求较低,主要用于业务分析使用,譬如大量的历史存档数据,这些数据在原业务系统中大多时候无法发挥价值,反倒是累赘,而在数据中台中,通过数据计算和分析,则可以重新产生新的价值。
非实时数据的采集目前架构较为成熟,分为现有软件和定制化开发两种采集模式:
-
现有软件方式采集。
以Kettle为代表。Kettle作为成熟的软件,可满足丰富的数据采集需求。然而需要单机安装,同时无法实现定制化。而且集成到数据中台中进行二次开发,无法满足个性化管理需求。 -
定制化开发方式采集。
以阿里开源的DataX为代表,DataX不提供用户操作界面,需要数据中台根据需要进行二次开发和集成,可实现分布式部署管理以及作业监控。
基于多年的数据治理经验,定制化开发数据采集模块,我们可面向不同的业务场景,内置不同的采集渠道,并结合用户需求,智能化实现数据的同步采集需求,为数据管理和治理提供数据起点。