logstash统计json数据

王钧石的技术博客

已于 2022-06-15 10:24:30 修改

阅读量505

点赞数

分类专栏： ELK 文章标签： elk

于 2022-06-15 10:21:56 首次发布

本文链接：https://blog.csdn.net/weixin_43830765/article/details/125291600

版权

ELK 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前几天接到了这样一个需求，用logstash从rabbitMq中读取json数据，并根据数据id来统计收到的数据数量，最终将统计结果输出到控制台。在网上找了一些资料，同时结合logstash官方文档最终实现了这个小需求。

logstash.conf 文件

input {
    rabbitmq {
        host => "0.0.0.0"   #RabbitMQ-IP地址
        vhost => "/command"      #虚拟主机
        port => 5672             #端口号
        user => "admin"          #用户名
        password => "admin"      #密码
        exchange => "logstash.test"
        exchange_type => "fanout"
        exclusive  => "true"
        codec => "json"
        tags => "logstash.test"
    }

filter {

        #统计数据个数  
        if "logstash.test" in [tags] {
            aggregate {
            task_id => "%{game_id}"
            code => "map['data_count'] ||=0; map['data_count'] += 1"
            push_map_as_event_on_timeout => true
            timeout_task_id_field => "task_id"
            timeout => 300 # 单位秒，5分钟后，不论是否还有数据，均触发超时
            inactivity_timeout => 3 # 单位秒，如果3秒钟未接收到数据，则触发超时
            timeout_tags => ['red_obs_aggregatetimeout']
            timeout_code => "event.set('hasData', event.get('data_count') > 1)"
        }
    } 
    
    
}
 
output {
    if "red_obs_aggregatetimeout" in [tags]{
        stdout {
            codec => rubydebug{  
            }
        }
    }

}

最终控制台的统计结果：

在这里插入图片描述

datacout就是最终的统计结果，数据有125条

最后注意上面的几点：

1.logstash 的 aggregate{}（聚合统计）插件，触发超时之后，就结束统计返回统计结果。因此一定要设置好超时时间。
2.控制台的rubydebug{}模式，不仅仅会打印统计结果，还会打印每次传输过来的数据，如果只想查看统计结果，可参照案例中的
timeout_tags => [‘red_obs_aggregatetimeout’]
来限制打印的结果。
3.设置task_id时，用了game_id，这是因为输入的每条json数据中都有game_id字段作为类别标识。相同game_id的数据会累加计数，aggregate{}函数会根据这个标识来统计数量。

关于更多的logstash的用法请参照官网：
https://www.elastic.co/cn/logstash/
本文案例中aggregate{}函数用法：
https://www.elastic.co/guide/en/logstash/current/plugins-filters-aggregate.html