hadoop 实现 Join方法3

  1. SemiJoin
    SemiJoin,也叫半连接,是从分布式数据库中借鉴过来的方法。它的产生动机是:对于 reduce
    side join,跨机器的数据传输量非常大,这成了 join 操作的一个瓶颈,如果能够在 map 端过
    滤掉不会参加 join 操作的数据,则可以大大节省网络 IO。
    实现方法很简单:选取一个小表,假设是 File1,将其参与 join 的 key 抽取出来,保存到文
    件 File3 中,File3 文件一般很小,可以放到内存中。在 map 阶段,使用 DistributedCache 将
    File3 复制到各个 TaskTracker 上,然后将 File2 中不在 File3 中的 key 对应的记录过滤掉,剩
    下的 reduce 阶段的工作与 reduce side join 相同。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值