前言:join分为mapjoin 和 common(普通) join;mapjoin 是没有reduce阶段,只有map阶段,在map阶段进行join操作.(此知识点也会在大表join小表中体现)common join 是在reduce阶段进行join操作,整个过程包括map shuffle reduce.
以下面这段left join 为例,来看看join的map和reduce阶段是如何运行的。
-- goods为商品表 price为价格表
select
a.goods_id,a.goods_name,b.price
from goods a
left join price b
on a.goods_id=b.goods_id
表数据:
执行流程图:(字迹较为潦草,请见谅)
过程详解:
map阶段
1.读取源表的数据,Map输出时候以 Join on 条件中的列为作为key,如果Join有多个关联键,则以这些关联键的组合作为key
2.Map输出的 value 为 join 之后所关心的(select或者where中需要用到的)列;同时在value中还会包含表的 Tag 信息,用于标明此value对应哪个表
3.按照key进行排序
Shuffle阶段
根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中,这样确保两个表中相同的key位于同一个reduce中
Reduce阶段
根据key的值完成join操作,期间通过Tag来识别不同表中的数据。
总结:大家结合上面的例子来学习执行过程会比较容易明白一些,只有搞懂了执行过程,我们才能真正搞明白 hive倾斜和优化。