kafka connect到底会不会重写/丢失数据

最新推荐文章于 2024-08-15 11:27:04 发布

Quan.S

最新推荐文章于 2024-08-15 11:27:04 发布

阅读量3.5k

点赞数 2

分类专栏： kafka 文章标签： kafka confluent connector hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xianzhen376/article/details/51897440

版权

本文探讨了Kafka Connect在使用HDFS Connector时的数据恢复机制，关键点包括将offset记录在文件名中，每个Kafka分区独立编号。恢复流程确保数据不被重写但可能丢失，尤其是在offset获取失败时可能导致数据丢失。相关issue提供了问题解决方案，建议修改Kafka Connect以避免与服务器端commit offset。

摘要由CSDN通过智能技术生成

1. 说明

版本：confluent 2.0.0

关于kafka connect的offset commit机制，看这里：
http://blog.csdn.net/xianzhen376/article/details/51896604

2. hdfs connector恢复机制

2.1 关键点：

写入hdfs的最后一条记录的offset，记录在文件名中；
数据是不停的往tmp文件写，然后rename至目标文件的，详见：
http://blog.csdn.net/xianzhen376/article/details/51831448
不同kafka 分区的数据 独立进行offset 编号；
不同kafka 分区的数据 不会写往同一hdfs文件；

2.2 恢复流程：

恢复处理是基于kafka 分区的

从hdfs 中根据文件名拿到最后一条记录的offset，假设为12345678；
通知kafka 该分区的数据，connect consumer group下次从12345678开始读数据；

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。