定义
**精准一次性消费:**消费且仅消费一次数据,保证数据不丢不重;
**最少一次消费:**主要是保证数据不丢,可能会产生数据的重复;
**最多一次消费:**主要是保证数据不会重复,但有可能丢失数据
问题如何产生
**丢失数据:**在Kafka消费数据时我们的数据还没有处理完就提交了offset,如果此时我们宕机了在重新消费时就会产生数据丢失;
**重复数据:**在Kafka消费数据时我们的数据处理过后此时宕机了因为我们还没有提交offset这时我们重新进行消费的话就会产生我们数据的重复
如何解决
方案一、
原子性绑定(要不都完成,要不都失败)事物
分布式事务管理上有很大的复杂性,一般不选择使用
把分布式事务变成本地事务 把Excutor的数据提取到Driver中由Driver端统一写入数据库 会变成本地事务的单线程,降低写入的吞吐量
如果我们的数据足够少就可以用事务来解决,通常聚合后的数据
方案二、
手动提交偏移量+幂等性处理