要确定Kafka的消息是否丢失或重复消费,可以从2个方面来分析
一、发送方式
Kafka消息发送有2种方式:同步和异步。
默认是同步方式。可通过producer.type属性来配置消息发送方式。
1、确认消息生产
确认消息的生产,可通过request.required.acks属性来配置,其中:
(1)0 不进行消息接收是否成功的确认
(2)1 当Leader接收成功时确认
(3)-1 当Leader和Follower都接收成功时确认
2、丢失场景
(1)acks=0时,不和kafka集群进行消息接收确认,则当网络异常或缓存区满了等情况,消息可能丢失
(2)acks=1时,同步模式下,只有Leader确认接收成功后但挂掉了,副本没有同步,消息可能丢失
二、消息消费
Kafka消息消费有2个consumer接口:Low-level API和High-level API
1、Low-level API:消费者自己维护offset等值,可以实现对kafka的完全控制;
2、High-level API:封装了对partition和offset的管理,使用简单
如果使用高级接口High-level API,可能存在一个问题就是当消息消费者从集群中把消息取出来,并提交了新的消息offset值后,还没来得及消费就挂掉了,那么下次再消费时之前没消费成功的消息就“诡异”地消失了
解决方法:
(1)对于消息丢失:同步模式下,确认机制设置为-1,即让消息写入Leader和Follower之后再确认消息发送成功;
异步模式下,为防止缓冲区满,可以在配置文件设置不限制阻塞
(2)针对消息重复:将消息的唯一标识保存到外部介质中,每次消费时判断是否处理过即可