SparkSQL join

Join的基本实现流程如下图所示，Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter)，通常streamIter为大表，buildIter为小表，我们不用担心哪个表为streamIter，哪个表为buildIter，这个spark会根据join语句自动帮我们完成。

在实际计算时，spark会基于streamIter来遍历，每次取出streamIter中的一条记录rowA，根据Join条件计算keyA，然后根据该keyA去buildIter中查找所有满足Join条件(keyB==keyA)的记录rowBs，并将rowBs中每条记录分别与rowAjoin得到join后的记录，最后根据过滤条件得到最终join的记录。

inner join

inner join是一定要找到左右表中满足join条件的记录，在spark sql查询优化阶段，spark会自动将大表设为左表，即streamIter，将小表设为右表，即buildIter。这样对小表的查找相对更优。在查找阶段，如果右表不存在满足join条件的记录，则跳过。

left outer join

left outer join是以左表为准，在右表中查找匹配的记录，如果查找失败，则返回一个所有字段都

为null的记录。在写sql语句或者使用DataFrmae时，一般让大表在左边，小表在右边。

（之前不是有说过尽量让小表在前？？）

right outer join

right outer join是以右表为准，在左表中查找匹配的记录，如果查找失败，则返回一个所有字段都

为null的记录。右表是streamIter，左表是buildIter，一般让大表在右边，小表在左边。

full outer join

full outer join相对来说要复杂一点，总体上来看既要做left outer join，又要做right outer join，所以full outer join仅采用sort merge join实现，左边和右表既要作为streamIter，又要作为buildIter

left semi join

left semi join是以左表为准，在右表中查找匹配的记录，如果查找成功，则仅返回左边的记录，否

则返回null。

left anti join

left anti join与left semi join相反，是以左表为准，在右表中查找匹配的记录，如果查找成功，则返

回null，否则仅返回左边的记录。

SPARK JOIN策略

Sort Merge Join

spark默认的，两张大表进行join时候使用，小表不进行配置Broadcast也会触发

主要包括三个阶段：

Shuffle 阶段:两张大表根据Join key进行Shuffle重分区
Sort 阶段: 每个分区内的数据进行排序
Merge 阶段: 对来自不同表的排序好的分区数据进行JOIN，通过遍历元素，连接具有相同Join key值的行来合并数据集

参数：spark.sql.join.prefersortmergeJoin

在shuffle read阶段，分别对streamIter和buildIter进行merge sort，在遍历streamIter时，对于每条

记录，都采用顺序查找的方式从buildIter查找对应的记录

SELECT /*+ MERGEJOIN(r) */ * FROM records r JOIN src s ON r.key = s.key

Broadcast Hash Join

当有一张表比较小的时候可以使用，比如事实表和维表进行join，可以提高join的效率

主要包括两个阶段：

broadcast阶段：将小表广播分发到大表所在的所有主机。涉及到不同的广播算法
hash join阶段：在每个executor上执行单机版hash join，小表映射，大表试探。

参数：spark.sql.autoBroadcastJoinThreshold

直接将buildIter广播到每个计算节点，然后将buildIter放到hash表中

源码具体实现：driver端根据表的统计信息，当发现一张小表达到广播条件的时候，就会将小表collect到driver端，然后构建一个HashedRelation，然后广播。

SELECT /*+ BROADCAST(r) */ * FROM records r JOIN src s ON r.key = s.key

Shuffle Hash Join

当要JOIN的表数据量比较大时使用，可以将大表按照JOIN的key进行重分区，保证每个相同的

JOIN key都发送到同一个分区中

主要包括两个阶段：

shuffle阶段：分别将两个表按照join key进行分区，将相同join key的记录重分布到同一节点，两张表的数据会被重分布到集群中所有节点
hash join阶段：每个分区节点上的数据单独执行单机hash join算法。

hash join实现方式，在shuffle read阶段不对记录排序，将来自buildIter的记录放到hash表中

具体实现：分治思想，将两张表按照相同的hash分区器及分区数进行，对join条件进行分区，需要join的key就会落入相同的分区里，然后就可以利用本地join的策略来进行join了。

SELECT /*+ SHUFFLE_HASH(r) */ * FROM records r JOIN src s ON r.key = s.key

需要注意以下四个条件：

buildIter总体估计大小超过spark.sql.autoBroadcastJoinThreshold设定的值，即不满足broadcast join条件
开启尝试使用hash join的开关，spark.sql.join.preferSortMergeJoin=false
每个分区的平均大小不超过spark.sql.autoBroadcastJoinThreshold设定的值，即shuffle read阶段每个分区来自buildIter的记录要能放到内存中
streamIter的大小是buildIter三倍以上