Hadoop Pig、Hive 自定义输入输出分隔符

最新推荐文章于 2024-04-10 22:05:54 发布

wisgood

最新推荐文章于 2024-04-10 22:05:54 发布

阅读量3.7k

点赞数

分类专栏： Hive

Hive 专栏收录该内容

93 篇文章 7 订阅

订阅专栏

PIG中输入输出分隔符默认是制表符\t，而到了hive中，默认变成了八进制的\001，

也就是ASCII： ctrl - A

Oct Dec Hex ASCII_Char

001 1 01 SOH (start of heading)

官方的解释说是尽量不和文中的字符重复，因此选用了 crtrl - A，单个的字符可以通过

row format delimited fields terminated by '#'; 指定，PIG的单个分隔符的也可以通过 PigStorage指定，

但是多个字符做分隔符呢？PIG是直接报错，而HIVE只认第一个字符，而无视后面的多个字符。

解决办法：

PIG可以自定义加载函数(load function)：继承LoadFunc，重写几个方法就ok了，

详见：http://my.oschina.net/leejun2005/blog/83825

而在hive中，自定义多分隔符（Multi-character delimiter strings），有2种方法可以实现：

1、利用RegexSe：

RegexSerDe是hive自带的一种序列化/反序列化的方式，主要用来处理正则表达式。

RegexSerDe主要下面三个参数：
input.regex
output.format.string
input.regex.case.insensitive

下面给出一个完整的范例：

 
add jar /home/june/hadoop/hive-0.8.1-bin/lib/hive_contrib.jar;
 
CREATE TABLE b(
 
c0 string,
 
c1 string,
 
c2 string)
 
ROW FORMAT
 
SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
 
WITH SERDEPROPERTIES
 
( 'input.regex' = '([^,]*),,,,([^,]*),,,,([^,]*)',
 
'output.format.string' = '%1$s %2$s %3$s')
 
STORED AS TEXTFILE;
 
 
 
cat b.txt
 
1,,,,2,,,,3
 
a,,,,b,,,,c
 
9,,,,5,,,,7
 
load data local inpath 'b.txt' overwrite into table b;
 
select * from b

REF：

http://www.oratea.net/?p=652

http://grokbase.com/t/hive/user/115sw9ant2/hive-create-table

2、重写相应的 InputFormat和OutputFormat方法：

详见：

hive处理日志，自定义inputformat

http://running.iteye.com/blog/907806

http://superlxw1234.iteye.com/blog/1744970

原理很简单：hive 的内部分隔符是“ \001 ”，只要把分隔符替换成“\001 ”即可。

3、顺便提下如何定制hive中NULL的输出，默认在存储时被转义输出为\N，

如果我们需要修改成自定义的，例如为空，同样我们也要利用正则序列化：

 
hive> CREATE TABLE sunwg02 (id int,name STRING)
 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
 
WITH SERDEPROPERTIES (
 
'field.delim'='\t',
 
'escape.delim'='\\',
 
'serialization.null.format'='
 
) STORED AS TEXTFILE;
 
OK
 
Time taken: 0.046 seconds
 
 
 
hive> insert overwrite table sunwg02 select * from sunwg00;
 
Loading data to table sunwg02
 
2 Rows loaded to sunwg02
 
OK
 
Time taken: 18.756 seconds
 
 
 
查看sunwg02在hdfs的文件
 
[hjl@sunwg src]$ hadoop fs -cat /hjl/sunwg02/attempt_201105020924_0013_m_000000_0
 
mary
 
101 tom
 
 
 
NULL值没有被转写成’\N’