SparkSQL执行流程、SQL执行计划、集成hive、内存分配

最新推荐文章于 2023-03-09 09:58:44 发布

Geek白先生

最新推荐文章于 2023-03-09 09:58:44 发布

阅读量565

点赞数 1

分类专栏： Spark 文章标签： sparkSQL执行过程 SQL执行计划集成hive 内存分配

本文链接：https://blog.csdn.net/weixin_43699817/article/details/101113009

版权

SparkSQL执行流程

SQL执行过程
例： select f1,f2,f3 from table_name where condition
Parse(解析)：
首先，根据SQL语法搜素关键字(select、from、where、group by等等)，标志出projection、DataSource、filter
Bind(绑定)：
通过解析阶段的相关内容(projection、DataSource、filter),校验DataSource、filed合法性；如果校验失败，抛异常。
optimize(优化)：
通过数据库对当前DataSource进行的统计数据分析，执行相应的优化措施。
Execute(执行)：
开启物理执行，将逻辑计划转化为相对应的Task。

在这里插入图片描述

SQL执行计划

执行计划实质：看做成tree(树)，树节点上通过Rule对象保存节点信息。
SparkSQL tree节点分一个几类：
a. 一元节点：filter、count等
b. 二元节点：join，union等
c. 叶子节点：加载外部数据等；

// 例1
val query_df = spark.sql("select  * from global_temp.person where name like '%o%'")
1.explain()查看物理执行计划
        == Physical Plan ==
	*Filter Contains(name#16, o)
	+- *SerializeFromObject [staticinvoke(class org.apache.spark.unsafe.types.UTF8String, StringType, fromString, assertnotnull(input[0, com.hyxy.SparkSql_Demo$Person, true]).name, true) AS name#16, assertnotnull(input[0, com.hyxy.SparkSql_Demo$Person, true]).age AS age#17, staticinvoke(class org.apache.spark.unsafe.types.UTF8String, StringType, fromString, assertnotnull(input[0, com.hyxy.SparkSql_Demo$Person, true]).address, true) AS address#18]
	   +- Scan ExternalRDDScan[obj#15]
2.explain(true)查看整个SQL的执行计划，主要分为4个阶段：
    a.解析过程
	   == Parsed Logical Plan ==
		'Project [*]
		+- 'Filter 'name LIKE %o%
		   +- 'UnresolvedRelation `global_temp`.`person`

	   说明：Project：映射，返回结果
	b.逻辑计划
           == Analyzed Logical Plan ==
		name: string, age: int, address: string
		Project [name#16, age#17, address#18<

最低0.47元/天解锁文章

Geek白先生

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL执行流程、SQL执行计划、集成hive、内存分配

SparkSQL执行流程1.SQL执行过程select f1,f2,f3 from table_name where conditionStep1-Parse(解析)：首先，根据SQL语法搜素关键字(select、from、where、group by等等)，标志出projection、DataSource、filterStep2-Bind(绑定)：通过解析阶段的相关内容(projec...
复制链接

扫一扫