Hive使用GBK等非UTF8字符集

说明

Hive默认是所有文件都是UTF8的。Hive将按照UTF8编码格式对数据文件进行解析和查询。

如果数据文件不是UTF8,则需要SerDe支持指定编码格式。对于常用的LazySimpleSerDe是支持指定字符集的。

SerDe is a short name for “Serializer and Deserializer.”
Hive uses SerDe (and !FileFormat) to read and write table rows.
HDFS files –> InputFileFormat –> –> Deserializer –> Row object
Row object –> Serializer –> –> OutputFileFormat –> HDFS files

使用

指定SerDe和字符集。

1
2
3
4
CREATE EXTERNAL TABLE student8(id STRING, name STRING) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES("field.delim"=',',"serialization.encoding"='GBK')
LOCATION '/data/student8/';

注意:为指定字符集,必须显式指定SERDE的类。指定SerDe类后,则不允许使用"FIELDS TERMINATED BY",而是要显式通过"field.delim"属性指定分隔符。

文章转载地址:http://blog.whohelpme.com/bbs/topic/singleIndex/23757/1.html


  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值