Spark 之 Join

最新推荐文章于 2023-09-12 09:56:16 发布

zhixingheyi_tian

最新推荐文章于 2023-09-12 09:56:16 发布

阅读量779

点赞数

分类专栏： spark 文章标签： spark 大数据数据库

本文链接：https://blog.csdn.net/zhixingheyi_tian/article/details/128486517

版权

spark 专栏收录该内容

106 篇文章 4 订阅

订阅专栏

broadcast join

spark.sql.autoBroadcastJoinThreshold 所配置的值，默认是10M，当某一张表的大小小于这个值时，将这张表收集到driver，然后广播到每一个executor上，这样的好处就是，大表进行join的时候，按照分区划分为多个partition，然后每一个partition与executor上的小表进行连接，小表全程都是存放在内存中，没有进行磁盘io的，速度就快。注意：将 spark.sql.autoBroadcastJoinThreshold 参数设置为 -1，可以关闭这种连接方式；只能用于等值 Join，不要求参与 Join 的 keys 可排序。

shuffle hash join

因为被广播的表首先被collect到driver段，然后被冗余分发到每个executor上，所以当表比较大时，采用broadcast join会对driver端和executor端造成较大的压力。这个使用场景就是大表连接小表，比上面的那张表要大一些，具体的操作就是两张表，一张为streamlter（迭代器的形式）也是大表（左边），buildlter就是小表，这里的话，分区内的数据无需排序，因为右边的分区的数据都会放在hashmap中，其实就是内存里（如果内存放不下会dump到磁盘中），然后也是会和左边大表合并，遇见相同的join key就合并成一条新数据。那么为神马要进行分区呢，主要是有分区的话就可以进行并行计算，和广播的方式对比，其实就是小表也进行了分区，根据分区，大表和小表有相同分区的分配到同一个executor上，然后和将小表的数据进行hash到一个hashtable中，然后与大表分区的join key进行关联.

要将来自buildIter的记录放到hash表中，那么每个分区来自buildIter的记录不能太大，否则就存不下，默认情况下hash join的实现是关闭状态，如果要使用hash join，必须满足以下四个条件：
要启用 Shuffle Hash Join策略，必须满足以下条件：

1.仅支持等值 Join，不要求参与 Join 的 Keys 可排序（这点是和sort-merge join相对应）

2.spark.sql.join.preferSortMergeJoin 参数必须设置为 false，参数是从 Spark 2.0.0 版本引入的，默认值为true，也就是默认情况下选择 Sort Merge Join；

3.小表的大小（plan.stats.sizeInBytes）必须小于 spark.sql.autoBroadcastJoinThreshold *spark.sql.shuffle.partitions（默认值200）其实就是让每一个小表的分区都类似于广播变量的小表；

4.而且小表大小（stats.sizeInBytes）的三倍必须小于等于大表的大小（stats.sizeInBytes），也就是a.stats.sizeInBytes * 3 < = b.stats.sizeInBytes

sort merge join

SortMergeJoinExec是Join查询的主要实现方式，Hash系列的Join实现中都是将一侧的数据完全加载到内存中，这对于一定大小的表来说比较适用，然而当两个表数据量都非常大的时候，无论使用哪种方法都会对计算内存造成很大压力，此时Spark会采用SortMergeExec进行Join操作。

SortMergeJoin的实现方式并不用将一侧的数据全部加载后进行Join操作，其前提条件是需要在Join操作前将数据排序,为了让两条记录链接到一起，需要将具有相同Key记录分发到同一个分区，因此一般会进行一次Shuffle操作（即物理执行计划中的Exchange节点），根据Key分区，将连接到一起的记录分发到同一个分区内，这样在后续的Shuffle阶段就可以将两个表中具有相同Key记录分到同一个分区处理.

经过ExChange节点操作之后，分别对两个表中每个分区里的数据按照key进行排序（SortExec节点）
，然后在此基础上进行sort排序，在遍历流式表，对于每条记录而言，都采用顺序查找的方式从构建查找表中查找对应的记录，由于排序的特性，每次处理完一条记录后只需要从上一次结束的位置开始查找，SortMergeJoinExec执行时就能够避免大量无用的操作。

对于SortMergeExec的性能优化

在Shuffle之前，Map阶段会按照key的hash值对数据进行重分区，相同的key被分到同一个分区内，不同Mapper中相同分区的数据会被Shuffle到同一个Reducer。ReDucer会对来自不同Mapper的数据进行排序，然后对排序的数据进行Join。

这种机制的不同之处是，当Reducer数量较少时，会造成Reducer处理的数据量比较大。所以可以把数据排序提前到Mapper阶段,Map阶段会按照key的hash值对数据重新分区并按照key进行排序,Recuder只需要对来自不同Mapper的数据进行归并排序.mergeSpill将所有insertRecord中的小文件进行合并，每次从spilled文件中取出一个属于当前partition的最小值并写入文件中，如果没有当前partition的数据，则换到下一个partition，直到所有数据被取出。