hive面经之一:大表小表之间join

最新推荐文章于 2024-06-16 11:31:02 发布

xiaolin_xinji

最新推荐文章于 2024-06-16 11:31:02 发布

阅读量1.2k

点赞数

分类专栏： Hive 文章标签： hive mapjoin hive优化

本文链接：https://blog.csdn.net/weixin_44131414/article/details/113881443

版权

Hive 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在Hive调优里面，经常会问到一个很小的表和一个大表进行join，如何优化。

	Shuffle 阶段代价非常昂贵，因为它需要排序和合并。减少 Shuffle 和 Reduce 阶段的代价可以提高任务性能。
	
	MapJoin通常用于一个很小的表和一个大表进行join的场景，具体小表有多小，由参数hive.mapjoin.smalltable.filesize来决定，
该参数表示小表的总大小，默认值为25000000字节，即25M。

	Hive0.7之前，需要使用hint提示 /*+ mapjoin(table) */才会执行MapJoin,否则执行Common Join，
但在0.7版本之后，默认自动会转换Map Join，由参数hive.auto.convert.join来控制，默认为true.

	假设a表为一张大表，b为小表，并且hive.auto.convert.join=true,那么Hive在执行时候会自动转化为MapJoin。

	MapJoin简单说就是在Map阶段将小表数据从 HDFS 上读取到内存中的哈希表中，读完后将内存中的哈希表序列化为哈希表文件，
在下一阶段，当MapReduce任务启动时会将这个哈希表文件上传到Hadoop分布式缓存中,该缓存会将这些文件发送到每个Mapper的本地磁盘上。
	因此,所有Mapper都可以将此持久化的哈希表文件加载回内存,并像之前一样进行 Join。顺序扫描大表完成Join,
减少昂贵的shuffle操作及reduce操作。

MapJoin分为两个阶段：

通过MapReduce Local Task，将小表读入内存，生成HashTableFiles上传至Distributed Cache中，这里会HashTableFiles进行压缩。

MapReduce Job在Map阶段，每个Mapper从Distributed Cache读取HashTableFiles到内存中，顺序扫描大表，在Map阶段直接进行Join，将数据传递给下一个MapReduce任务

在这里插入图片描述

xiaolin_xinji

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive面经之一:大表小表之间join

在Hive调优里面，经常会问到一个很小的表和一个大表进行join，如何优化。 Shuffle 阶段代价非常昂贵，因为它需要排序和合并。减少 Shuffle 和 Reduce 阶段的代价可以提高任务性能。 MapJoin通常用于一个很小的表和一个大表进行join的场景，具体小表有多小，由参数hive.mapjoin.smalltable.filesize来决定，该参数表示小表的总大小，默认值为25000000字节，即25M。 Hive0.7之前，需要使用hint提示 /*+
复制链接

扫一扫

专栏目录