Hive_基于Hive的网站日志分析

Hive实战：网站日志分析与数据预处理

最新推荐文章于 2023-08-13 09:30:00 发布

原创

最新推荐文章于 2023-08-13 09:30:00 发布 · 1.5k 阅读

12 ·

CC 4.0 BY-SA版权

本文介绍如何使用Hive对网站日志进行数据分析，涉及日志预处理、正则表达式处理日志、拆表、数据清洗（通过UDF去除双引号、转换日期时间格式）以及通过HQL分析用户访问时间和IP地址。

文章目录

概述
1. 引出需要进行数据预处理的必要性[→](#toc)
2. 使用RegexSerDe处理apache或者ngnix日志文件[→](#toc)
3. 根据不同业务拆表[→](#toc)
- - 3.1 需求分析
  - 3.2 拆表
4. 数据清洗[→](#toc)
5. 编写hql分许数据[→](#toc)
- - 5.1 分析用户访问网站的时间段
  - 5.2 分析用户的ip地址
总结

概述

本文将基于Hive数据仓库工具对一份网站日志进行数据分析，包括分析IP地址。包括在插入数据时使用正则表达式对日志文件进行预处理、利用UDF进行数据清洗、使用ORC格式存储和SNAPPY压缩等。

1. 引出需要进行数据预处理的必要性→

原日志文件的字段信息统计如下，总共11个字段：

日志文件中信息展示：

"27.38.5.159" 
"-" 
"31/Aug/2015:00:04:37 +0800" 
"GET /course/view.php?id=27 HTTP/1.1" 
"303" 
"440" 
- 
"http://www.ibeifeng.com/user.php?act=mycourse" 
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36" 
"-" 
"learn.ibeifeng.com"

正常创建表的操作

// 建表，以空格划分字段
create table IF NOT EXISTS default.bf_log_src (
remote_addr string,
remote_user string,
time_local string,
request string,
status string,
body_bytes_sent string,
request_body string,
http_referer string,
http_user_agent string,
http_x_forwarded_for string,
host string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
stored as textfile ;
// 载入数据
load data local inpath '/opt/datas/moodle.ibeifeng.access.log' into table bf_log_src ;
// 查看表结构
desc formatted bf_log_src;
// 查询行数
select count(*) from bf_log_src ;
// 查看前5行
select * from  bf_log_src limit 5 ;

发现问题
通过select * from bf_log_src limit 5 ;之后会发现，表里并没有正常显示日志文件里的11个字段的值，而是只有前面8 个字段，后面字段丢失了。
仔细观察日志文件信息，可以发现有些字段中本身存在空格
解决问题
推荐的解决问题方式是：利用正则表示式过滤。当然，数据预处理也可以借助Python脚本，可以参照基于Python预处理、用Hive对movielens数据集进行分析

2. 使用RegexSerDe处理apache或者ngnix日志文件→

Apache官网对日志文件的处理示例(示例中的正则表达是有误的)

CREATE TABLE apachelog (
  host STRING,
  identity STRING,
  user STRING,
  time STRING,
  request STRING,
  status STRING,
  size STRING,
  referer STRING,
  agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "([^]*) ([^]*) ([^]*) (-|\\[^\\]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*)