- 博客(3)
- 资源 (21)
- 收藏
- 关注
原创 hive bucket产生的小文件问题
Hive bucket主要作用:1. 数据sampling2. 提升某些查询操作效率,例如mapside join与此同时,在数据不均匀的情况下,bucket产生大量小文件,会带来很大麻烦,具体表现为:1. 文件数目过多,给namenode带来压力2. 在对查询条件不加限制时,启动大量map任务3. 数据入库慢结论:bucket,慎用!
2012-10-30 10:41:19 2748 2
原创 转义字符引发的血案(hive、bash)
hive hql:从一个字符串“p?a?b?c?ppp?hhh”中以?作为分隔符,找第5段字符串bash程序:test.sh#!/bin/bashhive -e "select (split('p?a?b?c?ppp?hhh','?'))[4] from a limit 1;"报错:Caused by: java.util.regex.PatternSyntaxException
2012-10-23 15:22:12 19835
原创 hive中文
hadoop、hive都支持UTF-8编码,我们可以使用UTF-8编码来处理中文以下两点需要注意:1. 处理脚本为UTF-8格式,包括建表脚本,数据处理脚本例如:如果在windows下使用ultraedit来写HQL程序,在保存文件的时候,保存格式为UNIX类型、UTF-8格式2. 终端采用UTF-8显示例如:secucecrt设置字符编码为UTF-8,字体为新宋体,字符集
2012-10-18 16:00:17 10668
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人