我这里的示例,实际就是某个broker不能访问了,但实际服务是还存在的。当某个消息发送失败时,协议层(kafka的发送逻辑)的重试逻辑是为这个消息对上一个分配的分区重试,而不是重新选择分区重试,因为协议层也不确定是不是用户又这个需求。
那我这里是希望重新选择分区进行发送的,所以应该在我的业务层,接收到消息发送失败后,重新对消息入栈发送。至于怎么保证不会再去尝试同一个分区,这个跟具体的分区选择算法相关。config.Producer.Partitioner 决定了用什么方式再去选择分区。最简单的是直接使用roundbin算法。
当业务层也进行了重试,重试若干次仍然失败后,那基本上能确定是所有的broker都访问不了了,由业务层进一步去确认该怎么处理。