SparkSQL执行流程、SQL执行计划、集成hive、内存分配

SparkSQL执行流程

  1. SQL执行过程
    例: select f1,f2,f3 from table_name where condition
    Parse(解析)
    首先,根据SQL语法搜素关键字(select、from、where、group by等等),标志出projection、DataSource、filter
    Bind(绑定)
    通过解析阶段的相关内容(projection、DataSource、filter),校验DataSource、filed合法性;如果校验失败,抛异常。
    optimize(优化)
    通过数据库对当前DataSource进行的统计数据分析,执行相应的优化措施。
    Execute(执行)
    开启物理执行,将逻辑计划转化为相对应的Task。
    在这里插入图片描述

在这里插入图片描述

SQL执行计划

执行计划实质:看做成tree(树),树节点上通过Rule对象保存节点信息。
SparkSQL tree节点分一个几类:
a. 一元节点:filter、count等
b. 二元节点:join,union等
c. 叶子节点:加载外部数据等;

// 例1
val query_df = spark.sql("select  * from global_temp.person where name like '%o%'")
1.explain()查看物理执行计划
        == Physical Plan ==
	*Filter Contains(name#16, o)
	+- *SerializeFromObject [staticinvoke(class org.apache.spark.unsafe.types.UTF8String, StringType, fromString, assertnotnull(input[0, com.hyxy.SparkSql_Demo$Person, true]).name, true) AS name#16, assertnotnull(input[0, com.hyxy.SparkSql_Demo$Person, true]).age AS age#17, staticinvoke(class org.apache.spark.unsafe.types.UTF8String, StringType, fromString, assertnotnull(input[0, com.hyxy.SparkSql_Demo$Person, true]).address, true) AS address#18]
	   +- Scan ExternalRDDScan[obj#15]
2.explain(true)查看整个SQL的执行计划,主要分为4个阶段:
    a.解析过程
	   == Parsed Logical Plan ==
		'Project [*]
		+- 'Filter 'name LIKE %o%
		   +- 'UnresolvedRelation `global_temp`.`person`

	   说明:Project:映射,返回结果
	b.逻辑计划
           == Analyzed Logical Plan ==
		name: string, age: int, address: string
		Project [name#16, age#17, address#18<
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值