Debezium系列之第100篇文章:阶段性详细总结对Debezium使用方式的优化,详细介绍对Debezium集群和Kafka集群做的一系列优化
Debezium专栏的第100篇文章,作出阶段性详细总结,针对Debezium的使用方式做了重大的优化,分享出来,可以帮助使用Debezium的小伙伴少走弯路,提高数据接入的稳定性和可靠性。
分享一张周末出去玩拍的照片:
- 努力工作学习的同时,不要忘记多运动运动,多去外面看看风景,走遍祖国的大好河山
一、介绍完整的数据链路
数据接入的整个链路:
- 数据库:mysql数据库、sqlserver等关系型数据库和mongodb等非关系型数据库
- Debezium:针对上百个数据库,采用了多个debezium集群维护
- Kafka:debezium专用的kafka集群
- Flume:flume集群消费kafka集群
- HDFS:flume数据落入hdfs的raw层
- HIVE:解析hdfs raw的数据存入hive数据库
二、需求背景和方案选择
需求背景:
- 已经接入上百个数据库,随着接入数据库的不断增加,Debezium集群、Kafka集群、flume集群对资源的需求不断增加,数据链路的稳定性和可靠性不断经受着考验
为了提高数据链路的稳定性和可靠性可以采取的措施:
- 可以考虑分多个debezium集群接入数据库,可以根据业