hive
文章平均质量分 76
starfe-geek
屌丝程序员
展开
-
Hive ERROR: Out of memory due to hash maps used in map-side aggregation
当hive在执行大数据量的统计查询语句时,经常会出现下面OOM错误,具体错误提示如下:Possible error: Out of memory due to hash maps used in map-side aggregation.Solution: Currently hive.map.aggr.hash.percentmemory is set to 0.5. Try set原创 2014-05-09 18:52:28 · 2882 阅读 · 0 评论 -
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order by 和数据库中的原创 2014-06-30 14:30:05 · 547 阅读 · 0 评论 -
rcfile
zha 在当前的基于Hadoop系统的数据仓库中,数据存储格式是影响数据仓库性能的一个重要因素。Facebook于是提出了集行存储和列存储的优点于一身的RCFile文件存储格式,据说当前在Facebook公司内部,其数据仓库的文件存储格式都是RCFile,另外盛大内部的数据仓库使用的也是RCFile文件存储格式。 我们现在正在进入一个大数据时代,何为“大数据”?它不仅仅就转载 2014-09-05 12:02:08 · 3660 阅读 · 0 评论 -
Hive文件格式
转自:http://www.cnblogs.com/Richardzhu/p/3613661.htmlhive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SE转载 2014-09-05 14:27:33 · 2598 阅读 · 0 评论