五分钟精通sparksql源码-加简历

最新推荐文章于 2023-03-10 20:49:06 发布

置顶

曾二爷

最新推荐文章于 2023-03-10 20:49:06 发布

阅读量5k

点赞数 4

分类专栏：大数据文章标签： spark 大数据云计算 spark源码架构

本文链接：https://blog.csdn.net/zzzqqq111222/article/details/85002253

版权

# 序言

- spark1.6之后引入DataSet，一种基于RDD的高级抽象，在RDD之上加入了scheme信息，给RDD的元素的每一列提供了名称和数据类型的标志。
- 同时DataSet还提供了更多的api，可以实现类似于sql的操作，而且在catalyst优化器的优化下我们的代码将更加高效。
- 其实sql最最厉害的就是将逻辑和物理执行分开，上层专注于让程序员更好的表达数据的处理逻辑，下层专注于把逻辑执行的更高效。而DataSet就是这上层用于表达数据处理逻辑的API的封装。

## 一些术语约定（下文中有不理解再来看）

五分钟精通sparksql源码-加简历

整体执行流程图

大概经过下面这几个阶段：

- 逻辑计划生成：

1. spark.sql() 这种方式的话会涉及到sql的解析，解析之后就会生成逻辑计划

2. 如果是直接在DataFrame的api上直接操作的话，使用的api将直接生成逻辑计划

- 分析：生成的逻辑计划将会通过解析器结合元数据信息&#x

关注