某日现场技术支持找到了我,问我有个数据上报的功能,记录的都是上报失败,让我排查一下。我第一印象当然是甩锅,啊不对问一下情况,准备排查问题。
先交代一下基础情况:功能就是我们将我们系统的数据上报到对方的kafka集群里,对方再根据消费我们数据的情况产生反馈再推到Kafka,我们根据对方的反馈去更新我们上报数据的情况。
以下是我们聊天记录:
1、我:看下上报界面记录的错误原因
他:
2、我:(一看这不是不存在或者超时了吗)问下对方kafka是不是有问题,有没有删除什么topic或者其他的操作
他:都是正常的,我们运维监控平台也是可以连接到他们kafka集群的,用telent命令请求kafka集群也都是通的
3、我:确认下是不是我们这边发送的时候就异常了,这个错误是我们自己打上去的而不是对方反馈过来我们修改成异常的。
他&