Flink系列之:Flink CDC实现海量数据入湖

一、历史数据入湖架构

在这里插入图片描述

二、核心需求

  • 全量增量自动切换,并保证数据准确性
  • 最大限度地减少对源数据库的影响,尽量不使用锁
  • 能在已存在的任务中,添加新表的数据采集。避免一张表一个任务把DB机器带宽打满
  • 能同时进行全量与增量(日志)采集,不能暂停日志采集,以降低新增表对其他表日志采集带来的延迟
  • 能确保数据在同一主键ID下是按历史顺序发生的,不能有后发生的事件先发送到下游

三、选择Flink CDC原因

  • 无缝对接Flink生态
  • 全量与增量自动切换,保证数据准确性
  • 无锁读取,断点续传,水平扩展

四、Flink CDC 2.0原理

  • 基于FLIP-27架构实现,先全量同步,在Enumerator把表切分成多个split块。把切分好的SnapshotSplit分配给Sourceread执行全量数据采集。
  • 采集完成后,SourceRead向Enumerator汇报完成的SnapshotSplit信息。
  • 重复步骤1、2。
  • 全量采集完成之后,构造BinlogSplit分配给SourceRead执行增量日志数据采集。

五、支持全量与增量日志流并行读取

  • 新增表后,停止增量日志数据采集任务,与核心需求4不符,造成新增表对其他表日志采集带来延迟。

解决方法:

  1. 全量与增量日志并行读取

全量与增量日志并行读取流程:

  1. 程序启动后,在Enumerator中,先执行增量同步去,创建BinlogSplit,放在分配列表的第一个,然后分配给SourceRead执行增量日志数据采集。
  2. Enumerator把全量采集切分成多个split块。然后把切分好的SnapshotSplit分配给SourceRead执行全量数据采集。
  3. 全量split采集完成后,SourceRead向Enumerator汇报完成的split信息。
  4. 重复步骤2、3,直到把所有表的全量数据都采集完毕。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

快乐骑行^_^

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值