大表join小表,独钟爱mapjoin

在Hive调优里面,经常会问到一个很小的表和一个大表进行join,如何优化。

 

 

       Shuffle 阶段代价非常昂贵,因为它需要排序和合并。减少 Shuffle 和 Reduce 阶段的代价可以提高任务性能。

 

       MapJoin通常用于一个很小的表和一个大表进行join的场景,具体小表有多小,由参数hive.mapjoin.smalltable.filesize来决定,该参数表示小表的总大小,默认值为25000000字节,即25M。


     Hive0.7之前,需要使用hint提示 /*+ mapjoin(table) */才会执行MapJoin,否则执行Common Join,但在0.7版本之后,默认自动会转换Map Join,由参数hive.auto.convert.join来控制,默认为true.


       假设a表为一张大表,b为小表,并且hive.auto.convert.join=true,那么Hive在执行时候会自动转化为MapJoin。

 

       MapJoin简单说就是在Map阶段将小表数据从 HDFS 上读取到内存中的哈希表中,读完后将内存中的哈希表序列化为哈希表文件,在下一阶段,当 MapReduce 任务启动时,会将这个哈希表文件上传到 Hadoop 分布式缓存中,该缓存会将这些文件发送到每个 Mapper 的本地磁盘上。因此,所有 Mapper 都可以将此持久化的哈希表文件加载回内存,并像之前一样

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 在Hive中,如果要将一个大与一个小进行join,可以考虑以下两种方式: 1. Map-join:将小加载到内存中,然后将大与内存中的小进行join。这种方式的优点是可以极大地提高join的效率,缺点是需要足够的内存来存放小。 2. Broadcast-join:将小直接广播到每个map任务中,然后将大与每个map任务中的小进行join。这种方式的优点是不需要过多的内存,适用于小较小时的情况。缺点是需要额外的网络传输开销。 在Hive中,可以使用以下语句实现Map-join: ``` set hive.auto.convert.join=true; set hive.mapjoin.smalltable.filesize=25000000; //设置小大小 SELECT /*+ MAPJOIN(smalltable) */ large_table.*, small_table.* FROM large_table JOIN small_table ON (large_table.key = small_table.key); ``` 可以使用以下语句实现Broadcast-join: ``` set hive.auto.convert.join=true; set hive.auto.convert.join.noconditionaltask=true; SELECT /*+ BROADCASTJOIN(smalltable) */ large_table.*, small_table.* FROM large_table JOIN small_table ON (large_table.key = small_table.key); ``` ### 回答2: 在Hive中,大与小的联接操作需要进行一些特别的考虑。首先,大与小的大小差异会影响到性能和效率。由于大通常包含大量的数据,而小相对较小,因此,联接操作时需要将小加载到内存中,以避免频繁的磁盘读取。这可以通过将小设置为Hive的Map Join进行优化。 Map Join是一种在内存中进行的联接操作,它将小缓存到节点的内存中,并在联接时直接在内存中进行操作,从而大大减少了磁盘I/O操作,提高了性能。要使用Map Join,可以使用HiveQL中的"mapjoin"关键字来启用此功能。 但是,应注意的是,由于内存有限,只有小可以完全加载到内存中,因此只有当小的大小适合全部加载到内存中时才适合使用Map Join。大则没有这个限制。 此外,在进行大与小的联接操作时,还可以考虑使用特定的联接算法来提高性能,例如,使用哈希联接(Hash Join)来减少I/O操作,或者使用排序联接(Sort Merge Join)来加快排序操作。 最后,对于Hive大与小的联接操作,还可以通过对数据进行分区或者使用分桶技术来提高性能。通过分区将大和小划分为更小的块,可以减少联接操作需要处理的数据量。而分桶则可以根据某个列的哈希值将数据分布到不同的桶中,从而更高效地进行联接操作。 总结起来,Hive中大与小的联接操作需要考虑优化性能和效率的因素,例如使用Map Join、选择适当的联接算法、采用分区或分桶技术等。 ### 回答3: 在Hive中,进行大和小的连接操作通常有两种方式:MapJoin(映射连接)和ReduceJoin(归并连接)。 1. MapJoin:当小可以全部存放在内存中时,使用MapJoin可以将小加载到内存中,并将其构建为一个哈希。随后,对大进行扫描,将符合连接条件的记录通过哈希进行匹配,以获取结果。MapJoin的优点是速度快、简单,并且节省了磁盘IO的开销。然而,由于小需要完全加载到内存中,可能会导致内存资源紧张,且对于大型数据集来说可能并不适用。 2. ReduceJoin:当无法将小全部加载到内存中时,就需要使用ReduceJoin。ReduceJoin将大和小根据连接字段进行排序,然后按照连接字段进行分区。在后续的reduce阶段,将同一个连接字段的记录发送到同一个reduce任务中,然后通过遍历大和小的方式进行匹配,最终得到结果。ReduceJoin的优点是适用于大型数据集,并且不需要将整个小加载到内存中,避免了内存资源的浪费。然而,ReduceJoin的缺点是耗时较长,因为需要进行排序和分区操作,并且需要额外的磁盘IO。 总之,对于Hive中的大和小连接操作,根据实际情况选择合适的连接方式,可以提高查询的效率和性能。如果小可以全部加载到内存中,使用MapJoin可以获得更快的结果;如果小不能完全加载到内存中,则可以使用ReduceJoin来处理大规模数据集。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据私房菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值