在数据同步时,如何保证数据一致性?

在数据集成中经常被提及的一个需求是Exactly Once Semantic,要求在端到端的数据同步中一条记录同步到目的端,在任何情况下都不产生丢失和重复。而DataPipeline平台采用的Kafka Connect框架是如何保证数据一致性的?
在这里插入图片描述

DataPipeline数据一致性示例

DataPipeline平台对于数据一致性的保证是通过Kafka Connect中内嵌的Offset管理机制,从框架层面支持“At least Once”。

在数据同步过程中通过自动异步更新Kafka Connect Offset保证数据一致性,如果不做额外地处理,在出现异常中断的情况下,依然无法保证Exactly Once Semantic。

所幸的是,用户可以自定义数据写入目的地的逻辑,也可以获取到所消费数据的Offset。因此可以通过原子化操作,将Offset和数据同步写入到外部存储,并利用外部存储记录的Offset来防止可能产生的重复记录。

DataPipeline基于流计算框架的数据传输,在极端情况下,比如客户暂停数据任务, 或者上下游出现数据库故障,必须重传数据时,为保证数据不丢失可能会出现少量重复数据。 当目的地为数据库,且数据有主键或者联合主键时,数据不会出现重复。

当目的地为文件系统或者基于文件存储映射的数据库表时(比如hive),会有少量的重复数据,需要通过额外的脚本去重。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值