【实时数仓】CDC简介、实现DWD层业务数据的处理（主要任务、接收kafka数据、动态分流*****）

最新推荐文章于 2024-09-19 00:40:44 发布

OneTenTwo76

最新推荐文章于 2024-09-19 00:40:44 发布

阅读量2.5k

点赞数 2

分类专栏：实时数仓文章标签： kafka 数据库大数据

本文链接：https://blog.csdn.net/weixin_43923463/article/details/128226677

版权

文章目录

一 CDC简介
二准备业务数据-DWD层

一 CDC简介

1 什么是CDC

CDC是Change Data Capture(变更数据获取)的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

2 CDC的种类

CDC主要分为基于查询和基于Binlog两种方式，主要了解一下这两种之间的区别：

	基于查询的CDC	基于Binlog的CDC
开源产品	Sqoop、Kafka JDBC Source	Canal、Maxwell、Debezium
执行模式	Batch	Streaming
是否可以捕获所有数据变化	否	是
延迟性	高延迟	低延迟
是否增加数据库压力	是	否

3 Flink-CDC

Flink社区开发了 flink-cdc-connectors 组件，这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源，参考网址。

二准备业务数据-DWD层

业务数据的变化，可以通过Maxwell采集到，但是MaxWell是把全部数据统一写入一个Topic中, 这些数据包括业务数据，也包含维度数据，这样显然不利于日后的数据处理，所以这个功能是从Kafka的业务数据ODS层读取数据，经过处理后，将维度数据保存到Hbase，将事实数据写回Kafka作为业务数据的DWD层。

1 主要任务

（1）接收Kafka数据，过滤空值数据

对Maxwell抓取数据进行ETL，有用的部分保留，没用的过滤掉。

（2）实现动态分流功能

由于MaxWell是把全部数据统一写入一个Topic中，这样显然不利于日后的数据处理。所以需要把各个表拆开处理。但是由于每个表有不同的特点，有些表是维度表，有些表是事实表，有的表在某种情况下既是事实表也是维度表。

在实时计算中一般把维度数据写入存储容器，一般是方便通过主键查询的数据库比如HBase，Redis，MySQL等。一般把事实数据写入流中，进行进一步处理，最终形成宽表。但是作为Flink实时计算任务，如何得知哪些表是维度表，哪些是事实表呢？而这些表又应该采集哪些字段呢？

可以将上面的内容放到某一个地方，集中配置。这样的配置不适合写在配置文件中，因为业务端随着需求变化每增加一张表，就要修改配置重启计算程序。所以这里需要一种动态配置方案，把这种配置长期保存起来，一旦配置有变化，实时计算可以自动感知。

这种可以有两个方案实现

一种是用Zookeeper存储，通过Watch感知数据变化。
另一种是用mysql数据库存储，周期性的同步，使用FlinkCDC读取。

这里选择第二种方案，主要是mysql对于配置数据初始化和维护管理，用sql都比较方便。

所以就有了如下图：

在这里插入图片描述

配置表字段说明：

sourceTable：原表名。
sinkType：输出的类型。
sinkTable：写出到哪个表。
sinkpk：主键。
sinkcolum：保留哪些字段。
ext：建表语句的扩展，如引擎，主键增长方式，编码方式等。
operateType：操作类型，不记录数据的删除操作。

（3）把分好的流保存到对应表、主题中

业务数据保存到Kafka的主题中。

维度数据保存到Hbase的表中。

2 接收Kafka数据，过滤空值数据

整体工作流程：

在这里插入图片描述

（1）代码

public class BaseDBApp {
   
    public static void main(String[] args) throws Exception {
   
        //TODO 1 基本环境准备
        //流处理环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 设置并行度
        env.setParallelism(1);

        //TODO 2 检查点设置
        //开启检查点
        env.enableCheckpointing(5000L,CheckpointingMode.EXACTLY_ONCE);
        // 设置检查点超时时间
        env.getCheckpointConfig().setCheckpointTimeout(60000L);
        // 设置重启策略
        env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3,3000L));
        // 设置job取消后，检查点是否保留
        env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
        // 设置状态后端 -- 基于内存 or 文件系统 or RocksDB
        env.setStateBackend(new FsStateBackend("hdfs://hadoop101:8020/ck/gmall"));
        // 指定操作HDFS的用户
        System.setProperty("HADOOP_USER_NAME","hzy");

        //TODO 3 从kafka中读取数据
        //声明消费的主题以及消费者组
        String topic = "ods_base_db_m";
        String groupId = "base_db_app_group";
        // 获取消费者对象
        FlinkKafkaConsumer<String> kafkaSource = MyKafkaUtil.getKafkaSource(topic, groupId);
        // 读取数据，封装成流
        DataStreamSource<String> kafkaDS = env.addSource(kafkaSource);

        //TODO 4 对数据类型进行转换 String -> JSONObject
        SingleOutputStreamOperator<JSONObject> jsonObjDS = kafkaDS.map(JSON::parseObject);

        //TODO 5 简单的ETL
        SingleOutputStreamOperator<JSONObject> filterDS = jsonObjDS.filter(
                new FilterFunction<JSONObject>() {
   
                    @Override
                    public boolean filter(JSONObject jsonobj) throws Exception {
   
                        boolean flag =
                                jsonobj.getString("table") != null &&
                                        jsonobj.getString("table").le