Flink系列之：Flink CDC实现海量数据入湖

快乐骑行^_^

已于 2022-10-02 20:02:11 修改

阅读量1.3k

点赞数 1

分类专栏：日常分享专栏文章标签： Flink系列 Flink CDC 实现海量数据入湖

于 2022-10-02 20:01:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhengzaifeidelushang/article/details/127145031

版权

日常分享专栏专栏收录该内容

485 篇文章 90 订阅

订阅专栏

Flink系列之：Flink CDC实现海量数据入湖

一、历史数据入湖架构
二、核心需求
三、选择Flink CDC原因
四、Flink CDC 2.0原理
五、支持全量与增量日志流并行读取

一、历史数据入湖架构

在这里插入图片描述

二、核心需求

全量增量自动切换，并保证数据准确性
最大限度地减少对源数据库的影响，尽量不使用锁
能在已存在的任务中，添加新表的数据采集。避免一张表一个任务把DB机器带宽打满
能同时进行全量与增量(日志)采集，不能暂停日志采集，以降低新增表对其他表日志采集带来的延迟
能确保数据在同一主键ID下是按历史顺序发生的，不能有后发生的事件先发送到下游

三、选择Flink CDC原因

无缝对接Flink生态
全量与增量自动切换，保证数据准确性
无锁读取，断点续传，水平扩展

四、Flink CDC 2.0原理

基于FLIP-27架构实现，先全量同步，在Enumerator把表切分成多个split块。把切分好的SnapshotSplit分配给Sourceread执行全量数据采集。
采集完成后，SourceRead向Enumerator汇报完成的SnapshotSplit信息。
重复步骤1、2。
全量采集完成之后，构造BinlogSplit分配给SourceRead执行增量日志数据采集。

五、支持全量与增量日志流并行读取

新增表后，停止增量日志数据采集任务，与核心需求4不符，造成新增表对其他表日志采集带来延迟。

解决方法：

全量与增量日志并行读取

全量与增量日志并行读取流程：

程序启动后，在Enumerator中，先执行增量同步去，创建BinlogSplit，放在分配列表的第一个，然后分配给SourceRead执行增量日志数据采集。
Enumerator把全量采集切分成多个split块。然后把切分好的SnapshotSplit分配给SourceRead执行全量数据采集。
全量split采集完成后，SourceRead向Enumerator汇报完成的split信息。
重复步骤2、3，直到把所有表的全量数据都采集完毕。

快乐骑行^_^

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

快乐骑行^_^ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。