Debezium系列之:Debezium数据包含dml语句,造成connector消费binlog文件比较慢,甚至造成下游消费阻塞的解决方法
一、背景
- Debezium数据包含DMl语句,数据本身比较大,数据量比较大,重新拉取历史数据消费binlog文件的速率比较慢。
- flume消费Debezium采集的大量数据,数据堆积在了channel中,造成数据sink到HDFS的时间出现了大的延迟。
相关技术博客:
二、debezium数据包含dml
- 数据库配置binlog_rows_query_log_events
- connector配置参数"include.query": “true”
三、重新拉取历史数据
- 在重置offset拉取历史数据的情况下,发现在debezium数据包含dml信息的情况下,connector读取binlog文件的速率比较慢
- 因此,考虑Debezium数据不包含DML信息,从而加快Debezium Connector消费binlog文件的速率
重置Offset可以参考博主下面这篇技术博客实现:
- Debezium系列之:基于debezium offset拉取历史数据,确保数据没有丢失