presto + kafka + logstash 实时监控分析nginx日志

最新推荐文章于 2024-05-05 15:59:28 发布

rpmdeb

最新推荐文章于 2024-05-05 15:59:28 发布

阅读量396

点赞数

分类专栏： hadoop presto 文章标签： kafka nginx presto 大数据

本文链接：https://blog.csdn.net/weixin_44144932/article/details/115996106

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码

摘要由CSDN通过智能技术生成

前言

目前线上环境nginx日志一天10亿左右，日志已经实时放入kafka队列中，想实时监控分析，首先，理清我们的需求：

1.实时监控 reponse的情况
2.实时监控 request path 的流量变化
3.实时监控请求时间
4.从request 里面解析其中的参数，监控变化量

上面最难的是从request解析指定的字段出来做监控，这里必须经过一次解析后才能做统计

想了几种方案：

最先想到的是搭建ES集群，利用ES集群实现实时聚合搜索
利用现在流行的flink spark storm 等实时流处理方案
利用现有的presto ，实现presto on kafka

一、方案选取

根据我们现有的实际情况，不方便增加更多的机器，也没有人专门写代码，所以选择了第3种
 kafka -->  logstash --> kafka  --> presto

二、各项配置

1.logstash配置

配置文件如下：


# 我们的nginx日志是按照竖线分割的  xx|xx|x|x|
input {
   
	kafka {
   
		topics   => "nginx"
		group_id => "logstash"
		bootstrap_servers => "192.168.x.xx:9092"
		codec => "plain"
	}
}

filter{
   
# 提取需要的字段，不是每个字段都用到了
  mutate {
   
        split => {
    "message" => "|" }
        add_field => {
    
            "time"   => "%{[message][3]}" 
            "request" => "%{[message][7]}" 
            "response"

最低0.47元/天解锁文章

rpmdeb

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
presto + kafka + logstash 实时监控分析nginx日志

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码
复制链接

扫一扫