在数据同步时，如何保证数据一致性？

最新推荐文章于 2024-09-01 10:44:46 发布

牵一缕阳光

最新推荐文章于 2024-09-01 10:44:46 发布

阅读量8.2k

点赞数

文章标签：数据同步数据同步如何保证数据一致性 Datapipeline数据同步

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangjing5566/article/details/90042968

版权

在数据集成中经常被提及的一个需求是Exactly Once Semantic，要求在端到端的数据同步中一条记录同步到目的端，在任何情况下都不产生丢失和重复。而DataPipeline平台采用的Kafka Connect框架是如何保证数据一致性的？
在这里插入图片描述

DataPipeline数据一致性示例

DataPipeline平台对于数据一致性的保证是通过Kafka Connect中内嵌的Offset管理机制，从框架层面支持“At least Once”。

在数据同步过程中通过自动异步更新Kafka Connect Offset保证数据一致性，如果不做额外地处理，在出现异常中断的情况下，依然无法保证Exactly Once Semantic。

所幸的是，用户可以自定义数据写入目的地的逻辑，也可以获取到所消费数据的Offset。因此可以通过原子化操作，将Offset和数据同步写入到外部存储，并利用外部存储记录的Offset来防止可能产生的重复记录。

DataPipeline基于流计算框架的数据传输，在极端情况下，比如客户暂停数据任务，或者上下游出现数据库故障，必须重传数据时，为保证数据不丢失可能会出现少量重复数据。当目的地为数据库，且数据有主键或者联合主键时，数据不会出现重复。

当目的地为文件系统或者基于文件存储映射的数据库表时（比如hive），会有少量的重复数据，需要通过额外的脚本去重。

牵一缕阳光

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

牵一缕阳光 CSDN认证博客专家 CSDN认证企业博客

码龄5年

17: 原创

106万+: 周排名

90万+: 总排名

5万+: 访问

: 等级

691: 积分

13: 粉丝

7: 获赞

3: 评论

60: 收藏

私信

关注

热门文章

最新评论

数据交换平台
剥皮的马铃薯: 请教博主，多级模式下，某个单位数据发生变化，需要将其他单位的数据进行同步更新(使用的是TCP IP传输)，如果想要优化这种同步的速度，该从哪方面入手比较好
数据交换平台
RestCloud: MongoDB Atlas数据湖允许客户使用MongoDB查询语言(MQL)在S3上快速查询任何格式的数据，包括JSON、BSON、CSV、TSV、Parquet和Avro。全文搜索为最终用户提供了对数据进行过滤、排名和排序的灵活性，从而快速显示出最相关的结果，而无需将数据库与外部搜索引擎配对，也无需学习、扩展、管理和支持两个完全独立的系统。MongoDB图表通常对地图集和本地客户都是可用的，为他们提供了最快和最简单的方法来创建MongoDB数据的实时可视化。比如国内商业级数据交换平台RestCloud能在 MongoDB 中进行自动分库存储。
如何使用元数据管理？
这个昵称中不中: 文字挺详细的，但是博主有响应的图片吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。