Hive的正则解析器RegexSerDe

最新推荐文章于 2024-05-11 09:42:39 发布

奋斗吧_攻城狮

最新推荐文章于 2024-05-11 09:42:39 发布

阅读量2.7k

点赞数 3

分类专栏： Hive

Hive 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

通常情况下，Hive导入的是单一分割符的数据。如果需要导入格式复杂一点的data，可以使用hive自导的RegexSerDe来实现。
RegexSerDe类是hive自带的，使用正则表达式来支持复杂的data导入。
在hive0.11中，自带了两个RegexSerDe类：
org.apache.Hadoop.hive.contrib.serde2.RegexSerDe;
org.apache.hadoop.hive.serde2.RegexSerDe;
这两个类的区别在：
org.apache.hadoop.hive.serde2.RegexSerDe; 不支持output.format.string设定，设定了还会报警~~~~
org.apache.hadoop.hive.contrib.serde2.RegexSerDe;全部支持，功能比org.apache.hadoop.hive.serde2.RegexSerDe更强大，推荐使用org.apache.hadoop.hive.contrib.serde2.RegexSerDe。

下面对RegexSerDe类的介绍都是指：org.apache.hadoop.hive.contrib.serde2.RegexSerDe

1、关键参数：

[sql]view plaincopy 
   
 input.regex：输入的正则表达式  

[sql]view plaincopy 
   
 input.regex.case.insensitive：是否忽略字母大小写，默认为false  

[sql]view plaincopy 
   
 output.format.string：输出的正则表达式

2、使用Hive分析nginx日志，网站的访问日志部分内容为：

cat /home/hadoop/hivetestdata/nginx.txt
192.168.1.128 - - [09/Jan/2015:12:38:08 +0800] "GET /avatar/helloworld.png HTTP/1.1" 200 1521 "http://write.blog.linuxidc.net/postlist" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"
183.60.212.153 - - [19/Feb/2015:10:23:29 +0800] "GET /o2o/media.html?menu=3 HTTP/1.1" 200 16691 "-" "Mozilla/5.0 (compatible; baiduuSpider; +http://www.baiduu.com/search/spider.html)"

这条日志里面有九列，每列之间是用空格分割的，
每列的含义分别是客户端访问IP、用户标识、用户、访问时间、请求页面、请求状态、返回文件的大小、跳转来源、浏览器UA。

我们使用Hive中的正则表达式匹配这九列：
([^ ]*) ([^ ]*) ([^ ]*) (.∗) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")
于此同时我们可以在Hive中指定解析文件的序列化和反序列化解析器(SerDe)，并且在Hive中内置了一个org.apache.hadoop.hive.serde2.RegexSerDe正则解析器，我们可以直接使用它。

3、建表语句

CREATE TABLE logs
(
host STRING,
identity STRING,
username STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;

4、加载数据：

load data local inpath '/home/hadoop/hivetestdata/nginx.txt' into table logs;

查询每小时的访问量超过100的IP地址：

select substring(time, 2, 14) datetime ,host, count(*) as count 
from logs 
group by substring(time, 2, 14), host 
having count > 100
sort by datetime, count;

5、注意事项：
a、使用RegexSerDe类时，所有的字段必须为string
b、input.regex里面，以一个匹配组，表示一个字段：([^ ]*)

奋斗吧_攻城狮

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hive的正则解析器RegexSerDe

通常情况下，Hive导入的是单一分割符的数据。如果需要导入格式复杂一点的data，可以使用hive自导的RegexSerDe来实现。RegexSerDe类是hive自带的，使用正则表达式来支持复杂的data导入。在hive0.11中，自带了两个RegexSerDe类：org.apache.Hadoop.hive.contrib.serde2.RegexSerDe;org.apach
复制链接

扫一扫

专栏目录