背景
业务中需要准实时同步,但是需要对数据进行处理,技术选型flink+cdc形式。通过 cdc同步数据流到flink,再由flink进行处理,最后输出到北向数据库。
隐患
有张要同步的表是分区表,它并不是按时间分区,而是按某个字段作为分区键,在一级分区后再按时间进行二级分区。
情况大概是这样
https://blog.csdn.net/weixin_45893488/article/details/104844933?spm=1001.2014.3001.5502
我们的工作是从 两张 分区表中获取数据,再输出到 一张 结果表里
ps 这就是出问题的关键
问题
第一个问题 二级分区表无法识别,必须定义到最下层的实例表才可以。
flink 只认实例表,分区表是一张结构没有实例。
第二个问题 在任务上线后运行正常无报错,但在统计的时候发现数据丢失,有 1/3 的数据消失了。
cdc的日志显示捕获了所有的操作,那么问题在哪呢?
通过binlog我们还原了问题
原因
由于我们设置了分区,所以对于flink来说就变成了两张表 而不是一张表。分区键 是一个状态字段。
所以对于flink来说他的工作就变成了这样两个并行的工作
分区表1
通过cdc捕获到数据后,进行数据操作,包括增删改
分区表2
通过cdc捕获到数据后,进行数据操作,包括增删改
理论上,对我们的操作来说,我们是更新了这张表的状态字段。应该是先从分区表1新增,再从分区表1中删除,在到分区表2新增。
但是对于 flink 来说 这两个工作是并行的
也就是说他可能是 两个都先新增了(做了 ON DUPLICATE KEY UPDATE 操作,即不存在就新增,存在就更新)再删分区表1中的数据了,但是目标表中他的主键只有id,所以就都删了。
解决
根本原因是cdc捕获删除的时候根据唯一主键id把两个分区的数据都删了,如果能区分两个分区中的数据就能解决问题。
- 新增分区键字段
- 更新分区字段为非空
- 设置主键设置为联合主键(id,key)
- 修改job中TableAPI里定义的 sink 主键
- 打包jar 重新启动job
ps 由于数据量太大了,本次选择了新增过渡表,在做数据割接的方案,否则停机停服太久容易出问题。