Spark的join类型和策略

研发咨询顾问

已于 2023-08-08 10:49:11 修改

阅读量712

点赞数 1

分类专栏： # 批流计算文章标签： spark 大数据 hadoop

于 2023-05-17 11:14:37 首次发布

本文链接：https://blog.csdn.net/weixin_43871785/article/details/130721791

版权

批流计算专栏收录该内容

33 篇文章 0 订阅

订阅专栏

文章详细介绍了数据库中的各种JOIN类型，包括内连接、全连接、左/右外连接、左半连接、左反连接以及笛卡尔积连接。同时，针对Spark2.4及以上版本的JOIN策略进行了讨论，包括广播JOIN、分治JOIN、分区排序JOIN、笛卡尔积JOIN和广播嵌套循环JOIN，强调了不同JOIN策略的适用条件和优缺点。最后，提到了Spark的Joinhint功能，允许用户自定义JOIN策略以优化性能。

摘要由CSDN通过智能技术生成

N.1 join类型和join策略

N.1.1 join类型

1）内连接

inner join

2）全连接或外连接

full outer join 实际查询语句中还可以写作 full join。

3）左外连接和右外连接

（1）right outer join 也写作 right join（右连接）。

（2）left outer join 也写作 left join（左连接）。

4）左半连接 left semi join 是 in/exists 子查询的一种更高效的实现。

案例：select a.pk, a.value from a left semi join b on (a.pk = b.pk)

5）左反连接 left anti join

案例 a left anti join b 的功能是在查询过程中，剔除 a 表中和 b 表有交集的部分

6）笛卡尔积连接 cross join

如果不带WHERE条件子句，它将会返回被连接的两个表的笛卡尔积，返回结果的行数等于两个表行数的乘积；

7）类是where name is [not] table

（1）left_semi表示只保留左表ID ”在“ 右表ID 的数据

（2）left_anti表示只保留左表ID “不在” 右表ID 的数据。

（3）这两个参数适用于处理类似于“存在性”和“非存在性”等问题。

N.1.2 join策略

6000字总结Spark的5种join策略(建议收藏)_51CTO博客_spark join策略 ,

下面要求是spark2.4以上版本，spark2.4只有广播join.这次spark3.0有变成了如下的情况

1）广播join(Broadcast Hash Join或map join) 使用条件

（1）大表和小表join, 且数据必须很小，可以通过spark.sql.autoBroadcastJoinThreshold 参数来配置，默认是 10MB，如果你的内存比较大，可以将这个阈值适当加大；

如果将 spark.sql.autoBroadcastJoinThreshold 参数设置为 -1，可以关闭 BHJ；

（2）只能用于等值 Join，不要求参与Join的keys可排序；

（3）除了 full outer joins，支持所有的 Join连接类型。

2）分治join(Shuffle hash join)使用条件

（1）大表和“相对小表”join, 小表的大小(plan.stats.sizeInBytes)必须小于 spark.sql.autoBroadcastJoinThreshold * spark.sql.shuffle.partitions；

而且小表大小的三倍必须小于等于大表的大小

（2）只能用于等值 Join，不要求参与 Join 的 Keys 可排序；

（3）spark.sql.join.preferSortMergeJoin 参数必须设置为 false，参数是从 Spark 2.0.0 版本引入的，默认值为 true，也就是默认情况下选择 Sort Merge Join；

3）分区排序join(Sort Merge Join)使用条件

（1）仅支持等值 Join，并且要求参与 Join 的 Keys 可排序；

4）笛卡儿积join (Cartesian Join)使用条件

（1）必须是 inner Join，其支持等值和不等值 Join。

5）广播嵌套循环join(Broadcast Nested Loop Join)使用条件

（1）Broadcast nested loop join 支持等值和不等值 Join，支持所有的 Join 类型。

6）小结：虽然spark 是自动选择join策略类型的，但由于 Spark 的计算引擎优化器不是万能的，有些场景下会选择错误的 Join 策略，所以 Spark 2.4 & Spark 3.0 引入了 Join hint，也就是用户可以自己选择 Join 策略。上面的代码可以看出，用户指定的 Join hint 优先级最高。

N.2 join策略具体介绍

1）Broadcast Hash Join

BHJ 又称 map-side-only join，从名字可以看出，Join 是在 map 端进行的。这种 Join 要求一张表很小，小到足以将表的数据全部放到 Driver 和 Executor 端的内存中，而另外一张表很大。

2）Shuffle Hash Join

它的计算思想是：把大表和小表按照相同的分区算法和分区数进行分区（根据参与 Join 的 keys 进行分区），这样就保证了 hash 值一样的数据都分发到同一个分区中。

3）Sort Merge Join

也是对两张表参与 Join 的 Keys 使用相同的分区算法和分区数进行分区，目的就是保证相同的 Keys 都落到相同的分区里面。分区完之后再对每个分区按照参与 Join 的 Keys 进行排序，最后 Reduce 端获取两张表相同分区的数据进行 Merge Join，也就是 Keys 相同说明 Join 上了。