hive
文章平均质量分 78
yycdaizi
这个作者很懒,什么都没留下…
展开
-
Hive小文件合并
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。小文件带来的问题关于这个问题的阐述可以读一读Cloudera的这篇文章。简单来说,HDFS的文件元信息,转载 2015-01-31 15:23:04 · 68286 阅读 · 2 评论 -
hive中的mapjoin
在Hive中,common join是很慢的,如果我们是一张大表关联多张小表,可以使用mapjoin加快速度。 mapjoin主要有以下参数:hive.auto.convert.join : 是否自动转换为mapjoinhive.mapjoin.smalltable.filesize : 小表的最大文件大小,默认为25000000,即25Mhive.auto.convert.join.noc原创 2015-12-03 11:40:28 · 10591 阅读 · 1 评论