PHP解析Nginx访问日志并生成SQL

# 目标

1. 用yield读取文件, 减少内存占用

2. 用正则匹配, 拆分日志每一行

3. 每2000行生成一个insert语句

4. 命令行中显示当前处理条数

# 日志格式分析

## 打开nginx默认的配置文件(路径一般在 /etc/nginx/nginx.conf), 查看日志文件格式

log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                  '$status $body_bytes_sent "$http_referer" '
                  '"$http_user_agent" "$http_x_forwarded_for"';

## 字段解释:

  1. remote_addr : 客户端地址
  2. remote_user : 客户端用户名 (大部分获取不到)
  3. time_local : 服务器时间
  4. request : 请求内容,包括方法名,地址,和http协议
  5. status : 返回的http 状态码
  6. request_length : 请求大小
  7. body_bytes_sent : 返回的大小
  8. http_referer : 来源页
  9. http_user_agent : 客户端名称
  10. http_x_forwarded_for: 使用了代理的那个客户端IP(一般获取不到)

# 代码

<?php

$log_file = '/var/log/nginx/access.log'; //nginx访问日志地址
$sql_file = 'access.log.sql'; //解析成功的数据
$error_file = 'access.log.error'; //解析失败的数据

file_put_contents($sql_file, ''); //清空已有sql文件

// yield 方式读取文件
function read_file_yield($path)
{
        $fp = fopen($path, 'r');

        while (!feof($fp)) {
                yield fgets($fp);
        }

        fclose($fp);
}

$sql = "insert into accesslog (remote_addr, remote_user, time_local, request, status, body_bytes_sent, http_referer, http_user_agent, http_x_forwarded_for) values ";

$pool = []; //每2000条左右生成一个sql用

$i = 1;
$gen = read_file_yield($log_file);
foreach ($gen as $row) {
        printf(" processing: [%d] \r", $i); //显示进度

        $matchs = [];
        $bool = preg_match('#(\d+\.\d+.\d+\.\d+)\s-(.*?)-\s\[(.*)\]\s"(.*?)"\s(\d+)\s(\d+)\s"(.*?)"\s"(.*?)"\s"(.*?)"\s#', $row, $matchs);
        if ($bool) {
                $rs = array_slice($matchs, 1);
                $rs[2] = date('Y-m-d H:i:s', strtotime($rs[2]));
                $rs[3] = addslashes(substr($rs[3], 0, 200));
                $rs[7] = addslashes(substr($rs[7], 0, 100));
                //echo json_encode($rs).'<br>';
                //echo date('Y-m-d H:i:s', strtotime($rs[2])).'<br>';
                $pool[] = '("'.implode('","', $rs).'")';

                if (count($pool) > 2000) {
                        file_put_contents($sql_file, $sql.PHP_EOL, 8);
                        file_put_contents($sql_file, implode(','.PHP_EOL, $pool).';'.PHP_EOL, 8);
                        $pool = [];
                }

        } else {
                file_put_contents($error_log, $row.PHP_EOL, 8);
        }

        $i += 1;
}

file_put_contents($sql_file, $sql.PHP_EOL, 8);
file_put_contents($sql_file, implode(','.PHP_EOL, $pool).';'.PHP_EOL, 8);

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值