大数据学习(三十)JOIN过程中的mapreduce阶段

前言:join分为mapjoin 和 common(普通) join;mapjoin 是没有reduce阶段,只有map阶段,在map阶段进行join操作.(此知识点也会在大表join小表中体现)common join 是在reduce阶段进行join操作,整个过程包括map shuffle reduce.

以下面这段left join 为例,来看看join的map和reduce阶段是如何运行的。

-- goods为商品表 price为价格表
select
   a.goods_id,a.goods_name,b.price
 from goods a 
 left join price b 
   on a.goods_id=b.goods_id

表数据:

执行流程图:(字迹较为潦草,请见谅)

 过程详解:

map阶段

1.读取源表的数据,Map输出时候以 Join on 条件中的列为作为key,如果Join有多个关联键,则以这些关联键的组合作为key

2.Map输出的 value 为 join 之后所关心的(select或者where中需要用到的)列;同时在value中还会包含表的 Tag 信息,用于标明此value对应哪个表

3.按照key进行排序

Shuffle阶段

根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中,这样确保两个表中相同的key位于同一个reduce中

Reduce阶段

根据key的值完成join操作,期间通过Tag来识别不同表中的数据。

总结:大家结合上面的例子来学习执行过程会比较容易明白一些,只有搞懂了执行过程,我们才能真正搞明白 hive倾斜和优化。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值