一.Exactly Once
- At Least Once:将服务器的ACK级别设置为-1,可以保证Producer到Server之间不会丢失数据,但是不能保证数据不重复
- At Most Once:将服务器的ACK级别设置为0,可以保证生产者每条消息只会发送一次,不能保证数据不丢失
Exactly Once要求数据既不丢失也不重复。
Kafka引入了幂等性:所谓的幂等性就是指Producer不论向Server发送多少重复数据,Server只会持久化一条。也就是At Least Once+幂等性=Exactly Once
二.幂等性
幂等性:在HTTP/1.1中定义,一次和多次请求某一个资源对于资源本身具有相同的效果(网络超时等问题除外)。也就是说,其任意多次执行对资源产生的效果和一次执行产生的影响是相同的。实现幂等的关键点就是服务端可以区分请求是否重复,过滤到重复请求。区分重复有两点:
- 唯一标识:区分请求是否重复,请求中必须有唯一标识
- 记录下已经处理过的标识:当收到新的请求时,用新请求中的标识和处理过的标识进行对比,如果处理过中有相同的标识,就说明重复,拒绝掉。
Kafka引入了Producer ID(即PID)和Sequence Number:
- PID,每个Producer在初始化的时候会分配唯一一个PID,这个PID是对用户不可见的
- Sequence Number,对于每个PID,该Producer发送数据的每个<Topic, Partition>都对应一个从0开始单调递增的Sequence Number
只能保证单个Producer对于同一个<Topic, Partition>的Exactly Once语义。但是不能保证同一个Produce的同一个Topic的不同Partition的幂等。