# 目标
1. 用yield读取文件, 减少内存占用
2. 用正则匹配, 拆分日志每一行
3. 每2000行生成一个insert语句
4. 命令行中显示当前处理条数
# 日志格式分析
## 打开nginx默认的配置文件(路径一般在 /etc/nginx/nginx.conf), 查看日志文件格式
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
## 字段解释:
- remote_addr : 客户端地址
- remote_user : 客户端用户名 (大部分获取不到)
- time_local : 服务器时间
- request : 请求内容,包括方法名,地址,和http协议
- status : 返回的http 状态码
- request_length : 请求大小
- body_bytes_sent : 返回的大小
- http_referer : 来源页
- http_user_agent : 客户端名称
- http_x_forwarded_for: 使用了代理的那个客户端IP(一般获取不到)
# 代码
<?php
$log_file = '/var/log/nginx/access.log'; //nginx访问日志地址
$sql_file = 'access.log.sql'; //解析成功的数据
$error_file = 'access.log.error'; //解析失败的数据
file_put_contents($sql_file, ''); //清空已有sql文件
// yield 方式读取文件
function read_file_yield($path)
{
$fp = fopen($path, 'r');
while (!feof($fp)) {
yield fgets($fp);
}
fclose($fp);
}
$sql = "insert into accesslog (remote_addr, remote_user, time_local, request, status, body_bytes_sent, http_referer, http_user_agent, http_x_forwarded_for) values ";
$pool = []; //每2000条左右生成一个sql用
$i = 1;
$gen = read_file_yield($log_file);
foreach ($gen as $row) {
printf(" processing: [%d] \r", $i); //显示进度
$matchs = [];
$bool = preg_match('#(\d+\.\d+.\d+\.\d+)\s-(.*?)-\s\[(.*)\]\s"(.*?)"\s(\d+)\s(\d+)\s"(.*?)"\s"(.*?)"\s"(.*?)"\s#', $row, $matchs);
if ($bool) {
$rs = array_slice($matchs, 1);
$rs[2] = date('Y-m-d H:i:s', strtotime($rs[2]));
$rs[3] = addslashes(substr($rs[3], 0, 200));
$rs[7] = addslashes(substr($rs[7], 0, 100));
//echo json_encode($rs).'<br>';
//echo date('Y-m-d H:i:s', strtotime($rs[2])).'<br>';
$pool[] = '("'.implode('","', $rs).'")';
if (count($pool) > 2000) {
file_put_contents($sql_file, $sql.PHP_EOL, 8);
file_put_contents($sql_file, implode(','.PHP_EOL, $pool).';'.PHP_EOL, 8);
$pool = [];
}
} else {
file_put_contents($error_log, $row.PHP_EOL, 8);
}
$i += 1;
}
file_put_contents($sql_file, $sql.PHP_EOL, 8);
file_put_contents($sql_file, implode(','.PHP_EOL, $pool).';'.PHP_EOL, 8);