如何保证消息不被重复消费
面试题
如何保证消息不被重复消费,或者说如何保证消息的幂等性
面试官心理分析
既然是消费消息,那肯定要考虑会不会重复消费?能不能避免重复消费?或者重复消费了也别造成系统异常可以吗?这个是MQ领域的基本问题,其实本质上还是问你使用消息队列如何保证幂等性
面试题刨析
首先,有哪些重复消费的问题?
先用kafka来举一个例子吧,说说怎么重复消费
kafka实际上有个offset的概念,就是每个消息写进去,都有一个offset,代表消息的序号,然后consumer消费了数据之后,每隔一段时间(定时定期),会把自己消费过的消息的offset提交以下,表示自己已经消费过了
但是凡事总有以外,比如我们之前生产经常遇到的,就是你有时候重启系统,直接kill进程了,再重启。这会导致consumer有些消息处理了,但是没来得及提交offset。重启之后,少数消息会再次消费一次
举个例子
有这么个场景。数据1/2/3依次进入kafka,kafka会给这三条数据每条分配一个offset,代表这条数据的序号,我们就假设分配的offset依次是152/153/154。消费者从kafka去消费的时候,也是按照这个顺序去消费。假如当消费者消费了offset=153
这条数据,刚准备其提交offset到Zookeeper,此时消费者进程被重启了。那么此时消费者没有去重的话,就会导致重复消费
新版的kafka已经将offset的存储从Zookeeper转移到kafka brokers,并使用内部位移主题_consumer_offset进行存储
其实重复消费并不可怕,可怕的是你没考虑到重复消费之后,怎么保证幂等性
幂等性,通俗点说,就一个数据,或者一个请求,给你重复来多次,你得保证对应的数据是不会改变的,不能出错
怎么保证消息队列消费的幂等性?
本质上还是具体问题具体分析,这里是几个思路:
- 比如你拿个数据要写入数据库,可以先根据主键查一下,如果这数据已经存在了,就不需要插入,只需要update一下
- 比如你是写redis,那没事了,反正每次都是set,天然幂等性
- 比如你不是上面两个场景,那做的复杂一点,你需要让生产者发送每条消息的时候,里面加一个全局唯一的id,类似订单id之类的东西,然后你这里消费到了之后,先根据这个id去redis查一下,之前消费过吗?如果没有,你就处理,然后这个id写Redis。如果消费过了,那你就别处理了,保证别重复处理相同的消息即可
- 比如基于数据库的唯一键来保证重复数据不会重复插入多条。因为有唯一键约束,重复数据只会报错而不会出现脏数据