Hive是什么
Hive是基于Hadoop的一个数据仓库工具,应该是整个Hadoop系统中最常使用的一个功能组件,通过内部的关系型元数据库,将存储在hdfs中的文件有效的管理起来,并提供类SQL的数据库操作语言,满足大数据集的统计分析工作。关于Hive的架构原理和基本操作部分,可以参考如下这篇文章(http://www.cnblogs.com/wangrd/p/6275162.html)Hive操作中常见的问题及处理方法
1)如何在脚本中嵌入hive操作语句
命令:hive -e “语句块”
案例:
hive -e “set io.sort.mb=10; select did,mac,made,count(*) from table_name where date between ‘2016-06-01’ and ‘2016-06-30’ and io =’in’ and (did is not null and did<>”) group by did,mac,made ”
说明:语句块中,各个语句之间用分号分隔2)大数据集情况下,hive查询提示” Java heap space”错误
解决办法:调整hive的io.sort.mb参数(默认值为100),使其值在10-80之间
命令:set io.sort.mb=103)Hive中空值处理
hive中空值有两种形态:null 和’ ‘,其存储规则为:若字段类型为string,则null的存储值为\N, ’ ‘的存储值为本身
Hive常见问题及处理方法
最新推荐文章于 2024-06-20 10:30:00 发布