python+pandas分析nginx日志

最新推荐文章于 2024-06-20 22:10:20 发布

木讷大叔爱运维

最新推荐文章于 2024-06-20 22:10:20 发布

阅读量7.1k

点赞数 6

分类专栏： python 文章标签： python日志分析 panda数据分析 panda读取日志

本文链接：https://blog.csdn.net/yanggd1987/article/details/69542669

版权

python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

需求

通过分析nginx访问日志，获取每个接口响应时间最大值、最小值、平均值及访问量。

实现原理

将nginx日志 $uri$ upstream_response_time字段存放到pandas的dataframe中，然后通过分组、数据统计功能实现。

实现

1.准备工作

#创建日志目录，用于存放日志
mkdir /home/test/python/log/log
#创建文件，用于存放从nginx日志中提取的$uri $upstream_response_time字段
touch /home/test/python/log/log.txt
#安装相关模块
conda create -n science numpy scipy matplotlib pandas
#安装生成execl表格的相关模块
pip install xlwt

2.代码实现

#!/usr/local/miniconda2/envs/science/bin/python
#-*- coding: utf-8 -*-
#统计每个接口的响应时间
#请提前创建log.txt并设置logdir
import sys
import os
import pandas as pd

mulu=os.path.dirname(__file__)
#日志文件存放路径
logdir="/home/test/python/log/log"
#存放统计所需的日志相关字段
logfile_format=os.path.join(mulu,"log.txt")

print "read from logfile \n"
for eachfile in os.listdir(logdir):
    logfile=os.path.join(logdir,eachfile)
    with open(logfile, 'r') as fo:
        for line in fo:
            spline=line.split()
            #过滤字段中异常部分
            if spline[6]=="-":
                pass
            elif spline[6]=="GET":
                pass
            elif spline[-1]=="-":
                pass
            else:
                with open(logfile_format, 'a') as fw:
                    fw.write(spline[6])
                    fw.write('\t')
                    fw.write(spline[-1])
                    fw.write('\n')
print "output panda"
#将统计的字段读入到dataframe中
reader=pd.read_table(logfile_format,sep='\t',engine='python',names=["interface","reponse_time"] ,header=None,iterator=True)
loop=True
chunksize=10000000
chunks=[]
while loop:
    try:
        chunk=reader.get_chunk(chunksize)
        chunks.append(chunk)
    except StopIteration:
        loop=False
        print "Iteration is stopped."

df=pd.concat(chunks)
#df=df.set_index("interface")
#df=df.drop(["GET","-"])

df_groupd=df.groupby('interface')
df_groupd_max=df_groupd.max()
df_groupd_min= df_groupd.min()
df_groupd_mean= df_groupd.mean()
df_groupd_size= df_groupd.size()

#print df_groupd_max
#print df_groupd_min
#print df_groupd_mean

df_ana=pd.concat([df_groupd_max,df_groupd_min,df_groupd_mean,df_groupd_size],axis=1,keys=["max","min","average","count"])
print "output excel"
df_ana.to_excel("test.xls")

3.打印的表格如下：
这里写图片描述

要点

1.日志文件比较大的情况下读取不要用readlines()、readline(),会将日志全部读到内存，导致内存占满。因此在此使用for line in fo迭代的方式，基本不占内存。
2.读取nginx日志，可以使用pd.read_table(log_file, sep=’ ‘, iterator=True),但是此处我们设置的sep无法正常匹配分割，因此先将nginx用split分割，然后再存入pandas。
3.Pandas提供了IO工具可以将大文件分块读取，使用不同分块大小来读取再调用 pandas.concat 连接DataFrame

木讷大叔爱运维

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
python+pandas分析nginx日志

需求通过分析nginx访问日志，获取每个接口响应时间最大值、最小值、平均值及访问量。实现原理将nginx日志uriuri upstream_response_time字段存放到pandas的dataframe中，然后通过分组、数据统计功能实现。实现1.准备工作#创建日志目录，用于存放日志mkdir /home/test/python/log/log#创建文件，用于存放从nginx日志中提取的$u
复制链接

扫一扫

专栏目录