Spark调优学习记录（六）语法优化之CBO

Ale_77

已于 2024-04-16 23:08:44 修改

阅读量258

点赞数 8

分类专栏： Spark调优学习记录文章标签： spark 学习 sql

于 2024-04-14 12:23:47 首次发布

本文链接：https://blog.csdn.net/yuliangwan_jiangyan/article/details/137740837

版权

14 篇文章 1 订阅

订阅专栏

本文讲述了在Spark中，通过收集和利用表和列的统计信息，CBO优化器如何改变SQL查询的物理执行计划，从sortMergeJoin转为更高效的BroadcastHashJoin。开启CBO参数后，还能优化多表join的顺序，提高查询性能。

摘要由CSDN通过智能技术生成

物理计划层面，计算所有可能的物理计划的代价（考虑数据的特点：大小、分布等，考虑操作算子的特点：中间结果集的分布和大小等），选择代价小的物理执行计划。

前置条件

一定先执行特定的SQL，收集所需表和列的统计信息。

生成表级别统计信息
ANALYZE TABLE 表名 COMPUTE STATISTICS

生成sizeLnBytes（大小）和rowCount（行数）。

生成列级别统计信息
ANALYZE TABLE 表名 COMPUTE STATISTICS FOR COLUMNS 列1，列2，列3

或
DESC FORMATTED 表名 列名

生成min、max、distinct_count、max_col_len、avg_col_len等。

spark.sql.cbo.enabled

默认为false。开启后，CBO优化器可以基于表、列的统计信息，进行估算，选择最优查询计划。

比如build侧优化、优化join类型、优化多表join顺序等。

先统计好相关表及列的统计信息，命令如前置条件中所列。统计信息会持久化到元数据库中。

可见使用的是sortMergeJoin。

sql相同

可见使用的是BroadcastHashJoin。类似于hive的map-join。将小表广播到大表所在节点。在map端完成聚合。

开启CBO之后，按照过滤后的数据进行估算。

当有多张表join的时候，可以将spark.sql.cbo.joinReorder.enabled打开，可以帮忙优化调整join的顺序。

关注

专栏目录