Flink 爬坑【2】cdc数据同步及分区表异常

背景

业务中需要准实时同步,但是需要对数据进行处理,技术选型flink+cdc形式。通过 cdc同步数据流到flink,再由flink进行处理,最后输出到北向数据库。

隐患

有张要同步的表是分区表,它并不是按时间分区,而是按某个字段作为分区键,在一级分区后再按时间进行二级分区。
情况大概是这样
https://blog.csdn.net/weixin_45893488/article/details/104844933?spm=1001.2014.3001.5502

我们的工作是从 两张 分区表中获取数据,再输出到 一张 结果表里
ps 这就是出问题的关键

问题

第一个问题 二级分区表无法识别,必须定义到最下层的实例表才可以。
flink 只认实例表,分区表是一张结构没有实例。
第二个问题 在任务上线后运行正常无报错,但在统计的时候发现数据丢失,有 1/3 的数据消失了。
cdc的日志显示捕获了所有的操作,那么问题在哪呢?
通过binlog我们还原了问题
在这里插入图片描述

原因

由于我们设置了分区,所以对于flink来说就变成了两张表 而不是一张表。分区键 是一个状态字段。
所以对于flink来说他的工作就变成了这样两个并行的工作

分区表1
通过cdc捕获到数据后,进行数据操作,包括增删改

分区表2
通过cdc捕获到数据后,进行数据操作,包括增删改

理论上,对我们的操作来说,我们是更新了这张表的状态字段。应该是先从分区表1新增,再从分区表1中删除,在到分区表2新增。

但是对于 flink 来说 这两个工作是并行的

也就是说他可能是 两个都先新增了(做了 ON DUPLICATE KEY UPDATE 操作,即不存在就新增,存在就更新)再删分区表1中的数据了,但是目标表中他的主键只有id,所以就都删了。

解决

根本原因是cdc捕获删除的时候根据唯一主键id把两个分区的数据都删了,如果能区分两个分区中的数据就能解决问题。

  1. 新增分区键字段
  2. 更新分区字段为非空
  3. 设置主键设置为联合主键(id,key)
  4. 修改job中TableAPI里定义的 sink 主键
  5. 打包jar 重新启动job

ps 由于数据量太大了,本次选择了新增过渡表,在做数据割接的方案,否则停机停服太久容易出问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值