Map join和reduce join的区别

MapJoin和ReduceJoin区别及优化

1 Map-side Join(Broadcast join)

思想:

小表复制到各个节点上,并加载到内存中;大表分片,与小表完成连接操作。

两份数据中,如果有一份数据比较小,小数据全部加载到内存,按关键字建立索引。大数据文件作为map的输入,对map()函数每一对输入,都能够方便的和已加载到内存的小数据进行连接。把连接结果按key输出,经过shuffle阶段,reduce端得到的就是已经按key分组的,并且连接好了的数据。

这种方法,要使用Hadoop中的DistributedCache把小数据分布到各个计算节点,每个map节点都要把小数据加载到内存,按关键字建立索引。

  • Join操作在map task中完成,因此无需启动reduce task

  • 适合一个大表,一个小表的连接操作

这里写图片描述

  • 这种方法有明显的局限性:
    • 有一份数据比较小,在map端,能够把它加载在内存,并进行join操作。
2 Reduce-side Join(shuffle join)

思想:

map端按照连接字段进行hash,reduce端完成连接操作

在map阶段,把关键字作为key输出,并在value中标记出数据是来自data1还是data2。因为在shuffle阶段已经自然按key分组,reduce阶段,判断每一个value是来自data1还是data2,在内部分成两组,做集合的成绩。

  • Join操作在reduce task中完成

  • 适合两个大表的连接操作

这里写图片描述

  • 这种方法有2个问题:
    • map阶段没有对数据瘦身,shuffle的网络传输和排序性能很低。
    • reduce端对2个集合做乘积计算,很耗内存,容易导致OOM。
3 优化方案
  • 使用内存服务器,扩大节点的内存空间
    针对map join,可以报一份数据放到专门的内存服务器,在map()方法中,对每一个的输入对,根据key到内存服务器中取出数据,进行连接。

  • 使用BloomFilter过滤空连接的数据
    对其中一份数据在内存中建立BloomFilter,另外一份数据在连接之前,用BloomFilter判断它的key是否存在,如果不存在,那这个记录是空连接,可以忽略。

  • 使用map reduce专为join设计的包
    在map reduce包看到有专门为join设计的包,对这些包还没有学习,不知道怎么使用,只是在这里记录下来,做个提醒。

jar: mapreduce-client-core.jar

package: org.apache.hadoop.mapreduce.lib.join

  • 1
  • 2
  • 3

[1] hive mapjoin使用和个人理解
[2] hive优化(1)之mapjoin
[3] 董西成,Apache Spark探秘:实现Map-side Join和Reduce-side Join

##原文出自https://blog.csdn.net/qq_17776287/article/details/78567514,转载自buildupchao的博客

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: MapjoinReducejoin是两种用于在Hadoop MapReduce中进行数据连接的方法。 Mapjoin是将小表加载到内存中,在map阶段进行连接,不需要在reduce阶段进行连接。这种方法适用于小表和大表的连接。 Reducejoin则是在reduce阶段进行连接,适用于两个大表的连接。 ### 回答2: MapReduce是一种分布式计算模型,用于在大规模数据集上进行并行计算。在MapReduce模型中,MapReduce是两个重要的阶段,其中Map阶段将数据分片并进行预处理,Reduce阶段将Map阶段的输出结果进行合并,并最终输出计算结果。 在MapReduce中,MapJoinReduceJoin是两个比较常见的数据处理方式。MapJoin是指在Map阶段中使用数据缓存或索引的方法将两个或多个数据集进行连接操作。而ReduceJoin则是在Reduce阶段中将两个或多个数据集进行连接操作。 MapJoinReduceJoin区别在于它们的适用场景和性能表现。MapJoin通常用于一对一或者多对一的数据连接操作,适用于大数据集和小数据集的快速连接。由于MapJoinMap阶段中进行连接操作,因此可以利用数据缓存或索引的优势,避免在Reduce阶段中进行大量的数据读写操作,从而提高了数据处理的效率和性能。 而ReduceJoin则适用于大数据集和大数据集之间的连接操作。由于Reduce阶段中涉及到大量的数据读写操作,因此需要在集群中进行大量的数据传输和复制,这会造成大量的网络和IO开销,从而导致性能下降。同时,ReduceJoin还需要进行数据的排序和分组操作,这会对集群的计算能力和内存压力造成很大的负担。 因此,MapJoinReduceJoin需要根据实际的数据规模和连接需求进行选择,以最优的方式进行数据处理和计算。在实际的MapReduce应用中,可以根据不同的业务特点和数据分布情况,选择适合自己的连接方式,以提高数据处理的效率和性能。 ### 回答3: MapJoinReduceJoin是Hadoop中两种常见的连接机制。MapJoin通常用于小数据集之间的连接,而ReduceJoin则适用于大数据集之间的连接。下面具体说明两者的区别: 1. MapJoin MapJoin是通过将两个表的数据都读入内存中,在Map端将这些数据进行连接,然后返回给Reduce端。在MapJoin中,一个表的数据作为Map输入,另一个表则存储在内存中作为Hash表,Map会对所有的数据进行扫描和匹配,最后将结果输出到Reduce端。由于MapJoin需要将所有数据全放在内存中,因此常用于小数据量的表之间的连接关系。 2. ReduceJoin ReduceJoin则是将两个表的数据集分别发送到Map端,Map端会对这两个数据集进行排序,然后对相同的Key进行匹配和连接,最后将结果返回给Reduce端。在ReduceJoin中,两个输入的数据集会被排序,相同的Key会被发送到同一个Reducer中进行操作,并将结果输出到Reduce端。ReduceJoin常用于大数据集之间的连接关系,因为它可以避免内存溢出的问题,但是需要进行排序和数据再次传输等过程,因此效率相对MapJoin会低一些。 综上所述,MapJoinReduceJoin都是链接两个数据集的机制,但是它们有着不同的使用场景。MapJoin适用于小数据集之间的连接,能够提供高效的连接性能;而ReduceJoin则适用于大数据集之间的连接,能够避免内存不足的问题,但是需要付出排序和数据传输等成本。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值