内含干货PPT下载|一站式数据管理 DMS 关键技术解读

一、核心痛点

随着数据的爆炸,企业数据应用需求的急骤提升和数据技术的快速发展,在数据库与数据仓库这两个关键系统产生强烈的关系。无论是Inmon模型还是Kimball模型中,都强依赖于各种数据库与数据仓库及连接其间的数据集成与处理产品、同时还牵涉到数据资产管理及安全的难题,这一系列核心组件密切配合才能完成哪怕是企业一个最简单的报表需求,其他复杂的需求自不必说。

同时我们还看到市场的发展趋势,据Gartner分析,企业要求数据集成、分析从离线到实时化趋势明显,预计2025年实时数据占比 30%,2022 年新业务超过50%将会采用实时分析。

当前的数仓构建过程中,整个流程非常的长,复杂度很高,这就与当前企业想要简单快速实现数字化产生了矛盾,主要问题包括:

  • 数据孤岛中数据库及各种日志种类繁多,缺少最佳设计开发与维护实践;
  • 数据互联互通困难,缺少简单可靠的数据通道,尤其是实时数据通道;
  • 数据加工处理的ETL过程复杂,实时性不足,技术栈多且难以维护;
  • 数据治理能力缺乏,安全问题凸出;

二、解决方案

对于这些问题及云原生+实时化的市场趋势,在阿里过去10年的数据库与数仓的构建与实时化的开发与应用经验基础上,我们推出全新的一站式的数据管理产品DMS(DMS+DTS),提供了包含全域数据资产、数据库设计与开发、数据集成、数据开发、数据可视化及数据服务等能力。通过内置阿里巴巴数据研发规范及数据安全最佳实践,DMS可帮助企业实现高效敏捷、安全可靠的数据生产、处理及消费。本文将就其中的关键能力进行技术解读。

三、关键能力

接下来将从实时数据流技术、库仓一体数据处理、分布式能力、资产管理与安全四部分描述。

实时数据流技术

1. 背景

数据集成能力是构建数仓的基础能力,包括存量数据抽取、增量数据抽取、以及数据转换(数据清洗/数据转换/数据富化)等方面。存量数据抽取相对简单,直接使用数据库/文件/或第三方应用提供的标准接口进行数据拉取和存储;数据转换部分可分为单记录处理、Arregation处理、多流关联处理等类型,这一部分侧重数据本身的转换,可应用于存量、增量数据;增量数据抽取侧重于实时性和业务的无入侵性,通过与数据源高度耦合的方式,尽可能实现一种极致实时的、对数据源影响最小的、且应用代价最低的增量获取技术。在增量数据捕获后,会实时入仓。新DMS强大的实时数据流技术来自DTS, 本章主要讨论增量数据捕获技术,同时以DMS为例说明实时数据流的技术全貌和核心要点。

2. 增量数据获取的技术流派

按照增量数据的获取方式,可以将实时数据流技术分为4类:即基于业务字段拉取、Trigger捕获、CDC(change data capture)、以及WAL解析。

2.1 基于业务字段拉取

假定数据源中带有时序字段,则可以通过周期性查询来提取出差异数据。这种时序字段最普遍的就是时间属性的,如modify_time。下图为基于这一字段进行的问题数据拉取的示例:

这种技术实现的优点是简单,但对业务的依赖程度高,获取的增量信息有限,且只能做到分钟或小时级别的实时性。

2.2 Trigger捕获

Trigger捕获方式是通过数据源自身的机制将数据操作记录到增量表中,增量抽取通过周期性查询增量表来获取增量数据。如下图所示:

这种技术实现能够获取每次的数据变化,但对源库有入侵,且实时性很难保障。

2.3 CDC

CDC(Changed Data Capture)技术是数据源提供的一种技术,可以在表级别开启。对于开启CDC的表,数据源会基于源表名生成一张CDC表,用以记录源表的增量数据变化。增量抽取通过周期性查询CDC表来获取增量数据。

CDC方式整体上看与Trigger捕获方式非常相似,但核心区别是CDC表的数据是数据源通过WAL日志挖掘解析生成,其性能要高于Trigger捕获。目前常见的商业数据库均提供了CDC技术(如Oracle/DB2/SQLServer等)。

CDC技术的优点是高效、简单,但对多表、及DDL的支持不好。

2.4 WAL解析

WAL解析高度依赖数据源的行为,虽然在具体实现上千差万别,但拉取通用数据库层面,其技术实现还是非常统一和一致的。下图为其基本形态:

增量抽取通过数据源的主备复制协议获取到Master的WAL日志,随后进行WAL日志的数据解析。

WAL解析方式的优点是实时,对数据源、业务都是0入侵的,但是实现的技术难度很大,对于每种数据源,都需要深入的了解、并且精通其WAL格式才有可能做到。

3. 实时数据流技术要点

从传统T + 1数仓到实时数仓,其背后反映的是业务对数据实时性的要求越来越高。而在技术路径上,实时数据流是其必由之路。目前,业内对实时数据流的构建方式尚未形成标准。在这里,我们仅以DMS的实践经验来说明。

3.1 实时性是实时数据流的核心

我们将实时定义为秒级延迟,只有当实时数据流达到这个延迟级别,基于次构建的实时数仓才能做到分钟级、甚至秒级的数据分析,帮助业务实时决策,将数据的价值发挥到极致。

DMS为了做到秒级延迟,在技术路线上选择了WAL解析方式,通过这一方式,DMS在众多数据库上达到了实时的要求。而为了做到秒级的实时性,需要进行众多技术点的突破,按照DMS的实践经验,总结如下图所示。

DRe

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值