一 CDC简介
1 什么是CDC
CDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
2 CDC的种类
CDC主要分为基于查询和基于Binlog两种方式,主要了解一下这两种之间的区别:
基于查询的CDC | 基于Binlog的CDC | |
---|---|---|
开源产品 | Sqoop、Kafka JDBC Source | Canal、Maxwell、Debezium |
执行模式 | Batch | Streaming |
是否可以捕获所有数据变化 | 否 | 是 |
延迟性 | 高延迟 | 低延迟 |
是否增加数据库压力 | 是 | 否 |
3 Flink-CDC
Flink社区开发了 flink-cdc-connectors 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,参考网址。
二 准备业务数据-DWD层
业务数据的变化,可以通过Maxwell采集到,但是MaxWell是把全部数据统一写入一个Topic中, 这些数据包括业务数据,也包含维度数据,这样显然不利于日后的数据处理,所以这个功能是从Kafka的业务数据ODS层读取数据,经过处理后,将维度数据保存到Hbase,将事实数据写回Kafka作为业务数据的DWD层。
1 主要任务
(1)接收Kafka数据,过滤空值数据
对Maxwell抓取数据进行ETL,有用的部分保留,没用的过滤掉。
(2)实现动态分流功能
由于MaxWell是把全部数据统一写入一个Topic中,这样显然不利于日后的数据处理。所以需要把各个表拆开处理。但是由于每个表有不同的特点,有些表是维度表,有些表是事实表,有的表在某种情况下既是事实表也是维度表。
在实时计算中一般把维度数据写入存储容器,一般是方便通过主键查询的数据库比如HBase,Redis,MySQL等。一般把事实数据写入流中,进行进一步处理,最终形成宽表。但是作为Flink实时计算任务,如何得知哪些表是维度表,哪些是事实表呢?而这些表又应该采集哪些字段呢?
可以将上面的内容放到某一个地方,集中配置。这样的配置不适合写在配置文件中,因为业务端随着需求变化每增加一张表,就要修改配置重启计算程序。所以这里需要一种动态配置方案,把这种配置长期保存起来,一旦配置有变化,实时计算可以自动感知。
这种可以有两个方案实现
- 一种是用Zookeeper存储,通过Watch感知数据变化。
- 另一种是用mysql数据库存储,周期性的同步,使用FlinkCDC读取。
这里选择第二种方案,主要是mysql对于配置数据初始化和维护管理,用sql都比较方便。
所以就有了如下图:
配置表字段说明:
- sourceTable:原表名。
- sinkType:输出的类型。
- sinkTable:写出到哪个表。
- sinkpk:主键。
- sinkcolum:保留哪些字段。
- ext:建表语句的扩展,如引擎,主键增长方式,编码方式等。
- operateType:操作类型,不记录数据的删除操作。
(3)把分好的流保存到对应表、主题中
业务数据保存到Kafka的主题中。
维度数据保存到Hbase的表中。
2 接收Kafka数据,过滤空值数据
整体工作流程:
(1)代码
public class BaseDBApp {
public static void main(String[] args) throws Exception {
//TODO 1 基本环境准备
//流处理环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 设置并行度
env.setParallelism(1);
//TODO 2 检查点设置
//开启检查点
env.enableCheckpointing(5000L,CheckpointingMode.EXACTLY_ONCE);
// 设置检查点超时时间
env.getCheckpointConfig().setCheckpointTimeout(60000L);
// 设置重启策略
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3,3000L));
// 设置job取消后,检查点是否保留
env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
// 设置状态后端 -- 基于内存 or 文件系统 or RocksDB
env.setStateBackend(new FsStateBackend("hdfs://hadoop101:8020/ck/gmall"));
// 指定操作HDFS的用户
System.setProperty("HADOOP_USER_NAME","hzy");
//TODO 3 从kafka中读取数据
//声明消费的主题以及消费者组
String topic = "ods_base_db_m";
String groupId = "base_db_app_group";
// 获取消费者对象
FlinkKafkaConsumer<String> kafkaSource = MyKafkaUtil.getKafkaSource(topic, groupId);
// 读取数据,封装成流
DataStreamSource<String> kafkaDS = env.addSource(kafkaSource);
//TODO 4 对数据类型进行转换 String -> JSONObject
SingleOutputStreamOperator<JSONObject> jsonObjDS = kafkaDS.map(JSON::parseObject);
//TODO 5 简单的ETL
SingleOutputStreamOperator<JSONObject> filterDS = jsonObjDS.filter(
new FilterFunction<JSONObject>() {
@Override
public boolean filter(JSONObject jsonobj) throws Exception {
boolean flag =
jsonobj.getString("table") != null &&
jsonobj.getString("table").le