背景:框架采用ELK(filebeat + logstash + kafka + es)
1. 问题1 消息发送失败,单条消息过大
kafka采用华为云服务,单条最大允许10MB。
filebeat默认单条message最大允许10MB. refer: https://www.elastic.co/guide/en/beats/filebeat/1.3/configuration-filebeat-options.html#_max_bytes
现象:logstash向kafka发送日志消息的时候,有时会出现 Sending batch to Kafka failed.
按照上述的说明,filebeat本身有单条消息最大限制,在发送到kafka时,不应该出现上述提示。
经过排查filebeat到kafka的过程,发现中间logstash做了codec的处理,将消息变为了plain格式。见下图 codec => plain。
此过程中,会导致消息的重编码,导致单条消息数量超出10M。故会出现如下问题。
此时,可视情况设置filebeat的最大单条消息大小限制,如下图所示
此外,设置了每次请求的max_request_size,控制每次发送的最大消息容量,使接收方和发送方都能合理处理消息。
2. 问题2 kafka为收到最新消息,且logstash程序在运行中,查看logstash日志,提示发送消息到kafka失败。
默认配置中,logstash当单条消息发送失败后,会默认进行重试,直至成功。此种情况,可排除logstash的错误日志,查看是否为Sending batch to Kafka failed,且一直持续不断的输出。则可能存在过多的消息超出大小限制,而logstash在一直重试这些消息,导致kafka一直没有最新消息。
可视情况采取错误,如增加重试次数的限制,retries => 5